Jewoo Sin

데이터 파이프라인에서 Spark와 Athena를 사용하는 시나리오

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 비구조화된 데이터 처리 비구조화된 데이터는 AWS에서 제공하는 S3라는 클라우드 스토리지에 저장합니다. S3외에 다른 스토리지를 선택할 수도 있습니다. 다만, S3는 가격이 싸면서도 로그파일같...

데이터 엔지니어와 SQL

이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 데이터 엔지니어에게 SQL이란? 데이터 엔지니어라는 직군을 떠올렸을 때 ‘아무래도 엔지니어니까 SQL보다 다른 언어를 많이 쓰지 않을까?’ 생각하기 쉽지만, 누구보다 SQL을 많이 사용하고 잘 다룰...