멱등성(Impodent)
이란 무엇인가?
데이터 파이프라인이 연속 실행되었을 때 소스에 있는 데이터가 그대로 DW로 저장되어야함을 이야기
a. No duplicates, no missing data
Full refresh를 하는 데이터 파이프라인이라면?
Extract, Transform, Load
웹(S3) 상에 존재하는 이름, 성별 내용의 CSV 파일을 다운받아서 Redshift에 있는 테이블로 복사
각자에게 할당된 schema밑에 아래 테이블을 생성
CREATE TABLE (본인의스키마).name_gender (
name varchar(32) primary key,
gender varchar(8)
);
데이터 소스
S3 내부 csv 파일에는 2개의 필드가 존재 (name, gender)
파이썬으로 작성: 세 개의 함수로 구성
extract, transform, load