Oh my Stack 프로젝트 설명, 2023년 상반기 회고록
지난 30일 동안 데이터 엔지니어로써 참여했던 프로젝트 ‘Oh my Stack’를 설명하고 회고해보려고 한다. 프로젝트에 관련된 모든 소스는 다음 링크에서 볼 수 있다. https://github.com/jewoodev/Oh_My_Stack 1. Oh my Stack를 기획한 이유 이 프로젝트의 필요성, 기획 이유에 대한 이야기는 ‘취업난’에서부...
지난 30일 동안 데이터 엔지니어로써 참여했던 프로젝트 ‘Oh my Stack’를 설명하고 회고해보려고 한다. 프로젝트에 관련된 모든 소스는 다음 링크에서 볼 수 있다. https://github.com/jewoodev/Oh_My_Stack 1. Oh my Stack를 기획한 이유 이 프로젝트의 필요성, 기획 이유에 대한 이야기는 ‘취업난’에서부...
파일 이동 # 로컬에서 컨테이너로 파일을 복사 docker cp [호스트 경로] [컨테이너 이름:컨테이너 경로] # 컨테이너에서 로컬로 파일 복사 docker cp [컨테이너 이름:컨테이너 경로] [호스트 경로] 볼륨 마운트 docker run -itd --name [컨테이너 이름] --mount "$(pwd)"/target:/[컨테이너 위치] ...
1. 도커 이미지 검색 docker images 1-1. 도커 이미지 삭제 docker images rm <image ID> 해당 이미지를 컨테이너에서 사용하고 있으면 이미지를 삭제할 수 없습니다. 1-2. 모든 이미지 삭제 docker rm $(docker images -q) -f (docker image -q)라는 명령어는 이미지...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. Backfill이란… 데이터 파이프라인을 운영하다보면 이미 지난 날짜를 기준으로 ETL을 재처리 해야하는 경우가 종종 생깁니다. 그런 재처리 작업을 Backfill(‘메우는 작업’)이라는 이름으로 ...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. Apache Airflow란? Airflow는 AriBnB에서 만든 workflow management tool입니다. workflow는 일련의 작업 흐름으로, 예를 들어 ETL처럼 데이터를 Ext...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 비구조화된 데이터 처리 비구조화된 데이터는 AWS에서 제공하는 S3라는 클라우드 스토리지에 저장합니다. S3외에 다른 스토리지를 선택할 수도 있습니다. 다만, S3는 가격이 싸면서도 로그파일같...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 이번 글에서는 기본적인 SQL 쿼리문들을 정리해보겠습니다. 먼저 DDL입니다. DDL - 테이블 구조 정의 언어 CREATE TABLE Primary key 속성을 지정...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. Redshift는 클라우드에서 관리되는 데이터 웨어하우스 서비스입니다. 그 용량은 작게 수백 기가 바이트부터 페타바이트 이상까지 데이터를 확보할 수 있습니다. 그렇다면 데이터 웨어하우스는 무엇일...
이 글은, 프로그래머스에서 진행되는 실리콘밸리에서 날아온 데이터 엔지니어링 키트 with Python에서 배운 내용을 바탕으로 이루어져 있습니다. 그리고 Airflow을 사용한다는 전제 하에 글을 적어내린다는 점을 참고해주세요. (데이터베이스 : PostgreSQL) Incremental Update는 왜 필요한가요? 데이터 파이프라인을...
잠시… 상상을 해봅시다. 어떤 데이터를 만들기 위해선 다른 테이블을 JOIN해야하는 상황이 찾아왔습니다. 근데 JOIN 키가 눌리면서 쿼리는 이미 날라갔고 DB가 막 일을 하고 있는데 Primary Key가 문제가 있는게 보였어요, 혹은 다른 문제가 보인거죠. 중복 데이터 보인다던지 말이죠. 그럼 JOIN된 결과는 어떨까요? 그려지시나요? 맞아...