Целевая аудитория

Аналитики;
Разработчики;
Data Engineers;
IT-специалисты, желающие освоить инструменты работы с большими данными.

Программа
  • Программа обучения:

    • Модуль 1. Обработка данных в Pandas. 

    • Модуль 2. Модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn. 

    • Модуль 3. Анализ текстовых данных. 

    • Модуль 4. Применение разных алгоритмов рекомендательных систем. 

    • Модуль 5. MapReduce-джобы на Python с использованием Hadoop Streaming. 

    • Модуль 6. SQL-like запросы в Hive для решения аналитических задач, колоночной базой данных HBase. 

    • Модуль 7. Анализ данных в Apache Spark