Data Engineer: проектирование, автоматизация и обработка данных в корпоративных системах в Академия Информационных Систем

Целевая аудитория

Практикующие разработчики, администраторы СУБД, аналитики данных, инженеры данных

Программа

Модуль 1. Организация работы с данными
- Архитектуры хранилища и витрин данных, озера данных
- Структуры данных и их применение 3NF, ROLAP, flat, Data Vault Anchor и их применение Примеры структур данных источников для тестовой витрины и тестового аналитического набора данных
- Разновидности систем управления базами данных: РСУБД
- Разновидности систем управления базами данных: NOSQL MongoDB, Redis Особенности обработки запросов в СУБД NOSQL
- Разновидности систем управления базами данных: MPP Обзор MPP хранилищ
Модуль 2. Экосистема больших данных
- Распределённая файловая система HDFS
- SQL поверх больших данных Hive и Impala Пример создания и реструктуризации витрины данных в HDFS/Impala
- Оперативный механизм распределённой обработки данных Spark Модель вычислений и RDD Data Frames и Spark SQL Обзор Apache PyArrow Пример создания и реструктуризации аналитического набора данных в Spark Отладка, профилирование и мониторинг Spark Job
Модуль 3. Автоматизация извлечения, преобразования и загрузки данных
- Механизмы ETL и ELT
- Airflow как инструмент: Набор библиотек Executor, worker и операторы-сенсоры Репозиторий Airflow, мониторинг процессов Планировщик задач Airflow
- Графовое описание процессов DAG и операторы задач
- ETL для тестовой витрины данных и тестового аналитического набора данных
- Сложные конвейеры обработки (pipeline)
- Разработка собственных операторов задач.
Модуль 4. Проверка и повышение качества данных
- Характеристики и метрики качества данных Профилирование, контроль качества и очистка данных
- Инструменты обеспечения качества данных Пример реализации контроля для тестового набора данных

Академия

Курсы

Услуги

Библиотека

Контакты

Data Engineer: проектирование, автоматизация и обработка данных в корпоративных системах

Включено в курс

Документы об обучении

Целевая аудитория

Программа

Модуль 1. Организация работы с данными

Архитектуры хранилища и витрин данных, озера данных

Разновидности систем управления базами данных: РСУБД

Разновидности систем управления базами данных: NOSQL MongoDB, Redis Особенности обработки запросов в СУБД NOSQL

Разновидности систем управления базами данных: MPP Обзор MPP хранилищ

Модуль 2. Экосистема больших данных

Распределённая файловая система HDFS

SQL поверх больших данных Hive и Impala Пример создания и реструктуризации витрины данных в HDFS/Impala

Модуль 3. Автоматизация извлечения, преобразования и загрузки данных

Механизмы ETL и ELT

Airflow как инструмент: Набор библиотек Executor, worker и операторы-сенсоры Репозиторий Airflow, мониторинг процессов Планировщик задач Airflow

Графовое описание процессов DAG и операторы задач

ETL для тестовой витрины данных и тестового аналитического набора данных

Сложные конвейеры обработки (pipeline)

Разработка собственных операторов задач.

Модуль 4. Проверка и повышение качества данных

Характеристики и метрики качества данных Профилирование, контроль качества и очистка данных

Инструменты обеспечения качества данных Пример реализации контроля для тестового набора данных

Отзывы

Рекомендуемые курсы