<aside> 💡 Redshift와 Sagemaker을 사용하여 머신러닝 예측
중요한 포인트는 SQL에서 ML 모델을 빌드하고 사용하는 유스케이스가 증가하고 있다는 점임 비개발자가 간단하게 모델을 만들고 사용가능!
</aside>
SageMaker의 AutoPilot 소개
캐글 Orange Telecom Customer Churn 데이터셋 사용
Orange Telecom Customer Churn 데이터 다운로드
21개의 컬럼과 3,333개의 레코드를 갖는 CSV 파일: train.csv
20%의 레코드들은 Purpose 컬럼 값이 “Test”, 80%의 레코드들은 “Train”을 갖게 됨
데이터 준비: 여기에 있는 csv 파일을 적당히 S3 버킷 아래 폴더로 업로드
a. s3://hajun-test-bucket/redshift_ml/train.csv
AWS S3 웹콘솔로 이동
S3 버킷 아래 redshift_ml 폴더 생성
앞서 다운로드받은 train.csv 파일을 위 폴더로 업로드 (s3://hajun-test-bucket/redshift_ml/train.csv)
위의 데이터를 raw_data.orange_telecom_customers로 로딩 (COPY)
CREATE TABLE raw_data.orange_telecom_customers (
state varchar,
account_length integer,
area_code integer,
international_plan varchar,
…
customer_service_calls integer,
churn varchar,
purpose varchar
);
위의 테이블을 만든 후 아래의 copy 명령어를 통해 로딩
COPY raw_data.orange_telecom_customers
FROM 's3://hajun-test-bucket/redshift_ml/train.csv'
credentials 'aws_iam_role=arn:aws:iam::xxxxxxs:role/redshift.read.s3'
delimiter ',' dateformat 'auto' timeformat 'auto' IGNOREHEADER 1
removequotes;