<aside> 💡 데이터 웨어하우스와 데이터 레이크와 ETL/ELT
데이터 웨어하우스와 데이터 레이크에 대해 알아보고 다음으로 ETL/ELT에 대해 알아보자
</aside>
데이터 웨어하우스는 기본적으로 클라우드가 대세
데이터가 커져도 문제가 없는 확장가능성(Scalable)과 적정한 비용이 중요한 포인트
크게 고정비용 옵션과 가변비용 옵션이 존재하며 후자가 좀더 확장가능한 옵션
AWS의 Redshift, 구글 클라우드의 BigQuery, 스노우플레이크(Snowflake)
오픈소스 기반(Presto, Hive)을 사용하는 경우도 클라우드 버전 존재
데이터가 작다면 굳이 빅데이터 기반 데이터베이스를 사용할 필요가 없음
데이터 레이크
데이터 레이크와 데이터 웨어하우스 바깥에서 안으로 데이터를 가져오는 것: ETL
데이터 레이크와 데이터 웨어하우스 안에 있는 데이터를 처리하는 것: ELT
ETL의 수는 회사의 성장에 따라 쉽게 100+개 이상으로 발전
중요한 데이터를 다루는 ETL이 실패했을 경우 이를 빨리 고쳐서 다시 실행하는 것이 중요
이를 적절하게 스케줄하고 관리하는 것이 중요해지며 그래서 ETL 스케줄러 혹은 프레임워크가 필요해짐
ELT
예) 고객 매출 요약 테이블, 제품 매출 요약 테이블, …
다양한 데이터 소스의 예