본 장에서는 데이터 파이프라인이 무엇인지, 현대의 데이터 생태계에 어떻게 적용되는지를 다룬다.
데이터 파이프라인은 다양한 소스로부터 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정이다. 이는 분석, 리포팅, 머신러닝 능력의 기초가 된다
데이터 파이프라인의 복잡성은 원본 데이터의 크기와 상태, 구조 및 분석 프로젝트의 요구 사항에 따라 달라진다.
→ 데이터 엔지니어 : 데이터 파이프라인을 구축하고, 유지관리하는 역할을 수행한다
Data Scientist 및 Analyst와 협력하여 데이터를 어떻게 처리해야 하는지 파악하고 요구 사항을 확장 가능한 프로덕션 상태로 전환해야 함
데이터의 유효성과 적시성을 보장해야 함
→ 테스트, 경고 및 비상 계획을 수립해야 함