Redshift ML | Notion

Redshift ML 사용하기

<aside> 💡 Redshift와 Sagemaker을 사용하여 머신러닝 예측

중요한 포인트는 SQL에서 ML 모델을 빌드하고 사용하는 유스케이스가 증가하고 있다는 점임 비개발자가 간단하게 모델을 만들고 사용가능!

</aside>

Amazon SageMaker란?

각오하자. sagemaker는 저렴한 서비스가 아니다
머신러닝 모델 개발을 처음부터 끝까지 해결해주는 AWS 서비스
- MLOps 프레임웍
크게 4가지 기능 제공
- 트레이닝 셋 준비
- 모델 훈련
- 모델 검증
- 모델 배포와 관리
  - API 엔드포인트, 배치 서빙, …
- 다양한 머신러닝 프레임웍을 지원
- Tensorflow/Keras, PyTorch, MXNet, …
- 자체 SageMaker 모듈로 머신러닝 모델 훈련 가능
SageMaker Studio라는 웹기반 환경 제공 (노트북)
- 노트북을 어떤 것을 돌리느냐에 따라서 상당한 비용이 들어갈 수 있다는 점 각오하자.
다양한 개발방식 지원
- 기본적으로 Python Notebook (SageMaker 모듈)을 통해 모델 훈련
  - 스칼라/자바 SDK도 제공
- AutoPilot이라는 코딩 불필요 모델 훈련 기능 제공
  - 이 경우에도 코드를 만들어줌
다른 클라우드 업체들도 비슷한 프레임웍 제공

SageMaker의 AutoPilot 소개

AutoPilot: SageMaker에서 제공되는 AutoML 기능
- AutoML이란 모델빌딩을 위한 훈련용 데이터 셋을 제공하면 자동으로 모델을 만들어주는 기능
AutoPilot은 훈련용 데이터 셋을 입력으로 다음을 자동으로 수행
- 먼저 데이터 분석(EDA: Exploratory Data Analysis)을 수행하고 이를 파이썬 노트북으로 만들어줌
- 다수의 머신 러닝 알고리즘과 하이퍼 파라미터의 조합에 대해 아래 작업을 수행
  - 머신 러닝 모델을 만들고 훈련하고 테스트하고 테스트 결과를 기록
- 선택 옵션에 따라 모델 테스트까지 다 수행하기도 하지만 코드를 만드는 단계(노트북)로 마무리도 가능
  - 즉 AutoPilot 기능을 통해 모델개발 속도를 단축하는 것이 가능
최종적으로 사용자가 모델을 선택 후 API로 만드는 것도 가능
- 여기에 로그를 설정할 수 있음 (전체 로깅이나 샘플 로깅 설정 가능

전체적인 절차

캐글 Orange Telecom Customer Churn 데이터셋 사용
- Orange Telecom Customer Churn 데이터 다운로드
  
  Telecom Churn Dataset
  - 21개의 컬럼과 3,333개의 레코드를 갖는 CSV 파일: train.csv
    - csv파일 형식으로 변환이 필요하다.
  - 20%의 레코드들은 Purpose 컬럼 값이 “Test”, 80%의 레코드들은 “Train”을 갖게 됨
데이터 준비: 여기에 있는 csv 파일을 적당히 S3 버킷 아래 폴더로 업로드

a. s3://hajun-test-bucket/redshift_ml/train.csv

AWS S3 웹콘솔로 이동
- S3 버킷 아래 redshift_ml 폴더 생성
- 앞서 다운로드받은 train.csv 파일을 위 폴더로 업로드 (s3://hajun-test-bucket/redshift_ml/train.csv)

위의 데이터를 raw_data.orange_telecom_customers로 로딩 (COPY)

CREATE TABLE raw_data.orange_telecom_customers (
 state varchar,
 account_length integer,
 area_code integer,
 international_plan varchar,
 …
 customer_service_calls integer,
 churn varchar,
 purpose varchar
);

위의 테이블을 만든 후 아래의 copy 명령어를 통해 로딩

COPY raw_data.orange_telecom_customers
FROM 's3://hajun-test-bucket/redshift_ml/train.csv'
credentials 'aws_iam_role=arn:aws:iam::xxxxxxs:role/redshift.read.s3'
delimiter ',' dateformat 'auto' timeformat 'auto' IGNOREHEADER 1
removequotes;