AWS에서 지원하는 데이터 웨어하우스 서비스
2 PB의 데이터까지 처리 가능하다
Still OLAP
컬럼 기반 스토리지
벌크 업데이트 지원
고정 용량/비용 SQL 엔진
데이터 공유 기능 (Datashare):
다른 데이터 웨어하우스처럼 primary key uniqueness
를 보장하지 않음
Redshift는 SQL 기반의 관계형 데이터베이스
Postgresql 8.x를 지원하는 툴이나 라이브러리로 엑세스가 가능하다
어쨋거나 SQL이 메인언어라는 점을 명심하자
가격 옵션
Redshift 옵션과 가격 정책(us-east 기준)
redshift의 스케일링 방식
Redshift가 2대 이상의 노드로 구성되면 한 테이블의 레코드들의 저장 방식은?
만약 3개의 노드를 가진 redshift 클러스터가 존재한다
5개의 레코드를 적재했다
위의 레코드들이 3개의 노드에 어떻게 분산 저장될지, 개발자가 직접 지정을 해주어야한다
data skew문제가 발생할 수 있다.
하지만 snowflake나 bigquery는 개발자가 위의 내용을 알필요가 없다.
Distkey
, Diststyle
, Sortkey
세 개의 키워드를 알아야한다
레코드 분배가 다수의 노드로 어떻게 이뤄지는지를 결정
all, even, key (디폴트는 “even”)