Incremental Update의 실패

<aside> 💡 관리하는 데이터 파이프라인의 수가 늘어나면 이 중의 몇은 항상 실패하게 되며 이를 어떻게 관리하느냐가 데이터 엔지니어의 삶에 큰 영향을 준다

</aside>

  1. Incremental Update가 실패하면?

  2. 하루에 한번 동작하고 Incremental하게 업데이트하는 파이프라인이라면?

    1. 만약 아래와 같이 실행될 경우, 이틀간의 정보가 빠져있게 된다

    스크린샷 2023-06-11 오후 2.57.21.png

  3. 실패한 부분을 재실행하는 것이 얼마나 중요한가?

    ⇒ 관리하는 데이터 파이프라인의 수가 늘어나면 이 중의 몇은 항상 실패하게 되며 이를 어떻게 관리하느냐가 데이터 엔지니어의 삶에 큰 영향을 준다

Backfill

Backfill의 용이성 여부 → 데이터 엔지니어 삶에 직접적인 영향!

보통 Daily DAG를 작성한다고 하면 어떻게 할까?

어떻게 ETL을 구현해놓으면 이런 일이 편해질까?