Целевая аудитория

Дата инженеры, разработчики, архитекторы БД, Data Scientists, аналитики данных, ETL девелоперы

Программа
  • Программа курса / модули:

    • Введение в ETL. Структура и типы источников данных 

    • Введение в Apache Airflow 

    • Настройка, установка Airflow. 

    • Основные абстракции и компоненты. DAG 

    • Принципы работы DAG. 

    • Установка интервала расписания (Schedule Interval).Как выстраивать DAG и стадии во времени и контролировать их исполнение (Execution Date) 

    • Мониторинг и дебаггинг процессов DAG. 

    • Более совершенные техники и сценарии использования AirFlow: работа с XComs, sub-DUGs, пуллинг, параллелизм и др. 

    • Лучшие практики по использованию AirFlow: интеграция с системами (Hadoop, Spark, Impala, ClickHouse, SuperSet и т.д), бекапы конфигурирование и масштабирование. 

    • Разработка. Плагины и нотификация. Операторы и хуки 

    • Установка и запуск Airflow в контейнерах Docker. 

    • Тестирование. Использование тестов в разработке. 

    • Итоговая аттестация