Redshift ML 사용하기

<aside> 💡 Redshift와 Sagemaker을 사용하여 머신러닝 예측

중요한 포인트는 SQL에서 ML 모델을 빌드하고 사용하는 유스케이스가 증가하고 있다는 점임 비개발자가 간단하게 모델을 만들고 사용가능!

</aside>

Amazon SageMaker란?

SageMaker의 AutoPilot 소개

전체적인 절차

  1. 캐글 Orange Telecom Customer Churn 데이터셋 사용

  2. 데이터 준비: 여기에 있는 csv 파일을 적당히 S3 버킷 아래 폴더로 업로드

    a. s3://hajun-test-bucket/redshift_ml/train.csv

    AWS S3 웹콘솔로 이동

  3. 위의 데이터를 raw_data.orange_telecom_customers로 로딩 (COPY)

    CREATE TABLE raw_data.orange_telecom_customers (
     state varchar,
     account_length integer,
     area_code integer,
     international_plan varchar,
     …
     customer_service_calls integer,
     churn varchar,
     purpose varchar
    );
    

    위의 테이블을 만든 후 아래의 copy 명령어를 통해 로딩

    COPY raw_data.orange_telecom_customers
    FROM 's3://hajun-test-bucket/redshift_ml/train.csv'
    credentials 'aws_iam_role=arn:aws:iam::xxxxxxs:role/redshift.read.s3'
    delimiter ',' dateformat 'auto' timeformat 'auto' IGNOREHEADER 1
    removequotes;