Jewoo Sin

플럼(Flume)

플럼이란 플럼은 빅데이터를 수집할 때 다양한 수집 요구사항들을 해결하기 위한 기능으로 구현된 소프트웨어이다. 데이터를 원천으로부터 수집할 때 통신 프로토콜, 메세지 포맷, 발생 주기, 데이터 크기 등으로 많은 고민들을 하게 되는데 플럼은 이런 고민들을 쉽게 해결할 수 있는 기능과 아키텍처를 제공한다. 플럼 아키텍처 플럼 메커니즘은 Source, ...

Airflow(에어플로우) Backfill

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. Backfill이란… 데이터 파이프라인을 운영하다보면 이미 지난 날짜를 기준으로 ETL을 재처리 해야하는 경우가 종종 생깁니다. 그런 재처리 작업을 Backfill(‘메우는 작업’)이라는 이름으로 ...

데이터 파이프라인에서 Spark와 Athena를 사용하는 시나리오

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 비구조화된 데이터 처리 비구조화된 데이터는 AWS에서 제공하는 S3라는 클라우드 스토리지에 저장합니다. S3외에 다른 스토리지를 선택할 수도 있습니다. 다만, S3는 가격이 싸면서도 로그파일같...