Jewoo Sin

Airflow(에어플로우) Backfill

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 1. Backfill이란… 데이터 파이프라인을 운영하다보면 이미 지난 날짜를 기준으로 ETL을 재처리 해야하는 경우가 종종 생깁니다. 그런 재처리 작업을 Backfill(‘메우는 작업’)이라는 이름으...

데이터 파이프라인에서 Spark와 Athena를 사용하는 시나리오

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 비구조화된 데이터 처리 비구조화된 데이터는 AWS에서 제공하는 S3라는 클라우드 스토리지에 저장합니다. S3외에 다른 스토리지를 선택할 수도 있습니다. 다만, S3는 가격이 싸면서도 로그파일같은...

Redshift란?

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. Redshift는 클라우드에서 관리되는 데이터 웨어하우스 서비스입니다. 그 용량은 작게 수백 기가 바이트부터 페타바이트 이상까지 데이터를 확보할 수 있습니다. 그렇다면 데이터 웨어하우스는 무엇일까요?...

데이터 엔지니어와 SQL

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 데이터 엔지니어에게 SQL이란? 데이터 엔지니어라는 직군을 떠올렸을 때 ‘아무래도 엔지니어니까 SQL보다 다른 언어를 많이 쓰지 않을까?’ 생각하기 쉽지만, 누구보다 SQL을 많이 사용하고 잘 다룰...