ETL: Extract, Transform and Load
Data Pipeline, ETL, Data Workflow, DAG
ETL (Extract, Transform, and Load)
Called DAG (Directed Acyclic Graph) in Airflow (단방향 무사이클 그래프)
ETL vs ELT
데이터 웨어하우스의 구성 예시
Spark/Athena 사용 시나리오
비구조화된 데이터 처리하기
spark의 API인 dataframe은 다수의 서버에 분산된 데이터를 처리할 수 있게 됨
배치, 스트리밍 데이터 처리도 가능함
대용량 데이터 병렬 처리 (feature 계산)
머신 러닝 모델의 입력으로 들어가는 feature를 배치로 미리 계산하는 경우
spark는 streaming 처리 가능 (redshift는 배치 처리만 가능)
spark는 큰 데이터를 processing하기 위한 프레임 워크에 가깝다
Data Lake
정형 데이터 + 다양한 형식의 비정형 데이터 저장
과거 데이터 스토리지에 가깝습니다(보존 정책 없음)
크기 면에서 데이터 웨어하우스보다 큰 규모
ETL
Data Warehouse