Ch1. 데이터 파이프라인 소개

본 장에서는 데이터 파이프라인이 무엇인지, 현대의 데이터 생태계에 어떻게 적용되는지를 다룬다.

데이터 파이프라인이란?

데이터 파이프라인은 다양한 소스로부터 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정이다. 이는 분석, 리포팅, 머신러닝 능력의 기초가 된다

데이터 파이프라인의 복잡성은 원본 데이터의 크기와 상태, 구조 및 분석 프로젝트의 요구 사항에 따라 달라진다.

누가 파이프라인을 구축할까?

→ 데이터 엔지니어 : 데이터 파이프라인을 구축하고, 유지관리하는 역할을 수행한다

데이터 엔지니어의 목적

데이터 엔지니어의 기술