Тренинг Алексея Зиновьева "Машинное обучение на BigData-проектах" / События на TimePad.ru

Для кого этот тренинг

Java и Scala — разработчики, которые начинают работу на BigData — проектах или планируют начать работать в ближайшем будущем, в запасе у которых несколько добротно написанных бэкендов.

Также тренинг может быть полезен для Python / R — разработчиков, которые планируют работать в тесной связке с Big Data — командами в качестве Data Scientist.

Даже если вы C#/C++ разработчик — приходите, все скелеты проектов будут выданы, проблем со сборкой не будет, а дальше будем работать с API фреймворков.

Необходимые знания:

базовые знания Linux,
знания Java и SQL,
плюсом будет опыт работы с Hadoop/Spark/Kafka

О чем тренинг?

Решение задач при помощи алгоритмов машинного обучения (machine learning) или глубокого обучения (deep learning) перестает быть занятием для PhD в Computer Science и становится типичным базовым требованием в вакансии Data Engineer.

Проверьте количество вакансий на hh, если вам интересна востребованность
https://hh.ru/search/vacancy?text=d...
https://hh.ru/search/vacancy?text=m...

Обычно на таком проекте имеется бэкенд написанный на Java или Scala при помощи таких фреймворков, как

Spark
Kafka
Hadoop
Ignite
Flink

Многие из этих фреймворков имеют встроенные ML/DL решения разного качества и удобства использования, и многие команды мечутся между использованием Python-библиотек и их интеграцией с остальной экосистемой и тотальным использование Spark MLlib для решения всех задач.

Я на протяжении нескольких последних лет, создаю цепочки машинного обучения (ML Pipelines) полного цикла от потребления данных до дообучения моделей на порциях новых данных, а также являюсь активным контрибутором ML фреймворков в вышеперечисленных инструментах.

Данный тренинг подготовлен на основе моего опыта и типичных граблей, по которым раз за разом ходят Java-разработчики, далекие от мира машинного обучения и ежедневной работы с математической статистикой.

В ходе тренинга будет много взаимодействия с участниками, live coding-а, мы решим несколько практических задач трансформации и анализа данных, поработаем с самой свежей версией Spark/Ignite/Flink, обсудим вопросы повышения производительности полученных решений.

Автор тренинга

Алексей Зиновьев тренер по Java/BigData в компании EPAM, с Hadoop/Spark и прочей бигдатой дружит с 2012 года, форкается и пуллреквестит с 2014, рассказывает с 2015. Особенно любит текстовые данные и большие графы. Несет бигдату в массы в группе https://vk.com/big_data_russia

Видео выступлений доступны на странице лекториума.

Подробное описание тем

Продолжительность: 8 часов (4 часа лекций + 4 часа практики)

Машинное обучение для джавистов
- Типичные задачи машобуча
- Обучение с учителем и без
- Задача кластеризации объектов
- Задача классификации объектов
- Этапы работы с данными
- Этапы работы с моделью
- Что такое бустинг?
- Насколько “глубоко” глубокое обучение?
- Обучение в режиме реального времени
- В какие задачи лучше не пихать машинное обучение
Практическое задание 1. Работа с Weka
Локальное машинное обучение на Java
- Метод ближайших соседей
- Популярные библиотеки машинного обучения на Java
- Возможна ли интеграция с Python — экосистемой?
- Как хранить данные для обучения?
Практическое задание 2. Кластеризация с Apache Commons
Основы машинного обучения в кластере Spark
- Краткое введение в Spark
- Основные инструменты разработки
- DataFrame API
- Основные типы данных: Vector, Labeled Point & Rating
- Распределенные матрицы
- Классификация и кластеризация со Spark ML
- Возможности Spark ML
- Немощь и недостатки Spark ML
Практическое задание 3. Решающие деревья со Spark ML
Пайплайн машинного обучения со Spark ML
- Загрузка данных
- Очистка данных
- Подготовка фич
- Выбор фич
- Тренировка машинного обучения
- Оценка модели
- Выбор наилучшей модели в ходе кросс-валидации
- Экспорт модели
- Ансамбль моделей
- Слияние моделей
Практическое задание 4. Создание пайплайна для задачи-сюрприза
Пайплайн машинного обучения с Ignite ML
- Как тренироваться, если данные лежат в Ignite — кэше
- Особенности “ленивой” тренировки
- Partitioned Datasets в Ignite ML
- Паритет по алгоритмам со Spark в релизе 2.7
- Ансамбли моделей
- Бустинг
Онлайн обучение
- Возможности Spark ML
- Грабим данные из Kafka
- Интеграция с Flink и Storm
- Flink ML и его возможности
- Дообучение моделей в Apache Ignite
Глубокое обучение
- Перцептрон и нейросети
- Автокодировщики
- RNN, CNN, LSTM
- DL4J: библиотека с нейросетями
- Что такое TensorFlow и как это готовить?
- Интеграция Spark c TensorFlow
- Интеграция Ignite c TensorFlow
Практическое задание 5. Решаем задачу распознавания с DL4j

Что нужно иметь на тренинге?

ноутбук с 8 GB RAM
IDEA Community edition
Scala + Sbt plugins для IDEA или умение работать с Java + Maven
собираемый HelloWorld проект [будет предоставлено тренером за неделю до тренинга]
скачанный заранее датасет [будет предоставлено тренером за неделю до тренинга]

Тренинг Алексея Зиновьева "Машинное обучение на BigData-проектах"

Рекомендуемые события

Для кого этот тренинг

О чем тренинг?

Автор тренинга

Подробное описание тем

Что нужно иметь на тренинге?

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Получение и восстановление электронных билетов

Возврат билета

Нужна помощь?

Как оплатить билет?

Как получить билет?

Как вернуть билет?

Задать вопрос организатору

Связаться с организатором

Тренинг Алексея Зиновьева "Машинное обучение на BigData-проектах"

Рекомендуемые события

Для кого этот тренинг

О чем тренинг?

Автор тренинга

Подробное описание тем

Что нужно иметь на тренинге?

Регистрация

Рекомендуемые события

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!