Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

Toxich · 22 июл 2022

Разработчик BigData [2022]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко

Программа профессиональной переподготовки.

Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.

Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.

Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.

Кому подойдёт профессия разработчик BigData:
1. Разработчик

Сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.
2. Аналитик

Сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.
3. Data engineer

Курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.
4. Data scientist

Получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.

Блок 1 - Технологии программирования и операционные системы

Модуль 1 - Семейство ОС Unix. Современные инструменты для работы в консоли

Семейство ОС Unix, основные дистрибутивы и их отличия.

Основные командные интерпретаторы, их отличия.

Утилита sed, язык awk.

Использование Python как заменителя shell.

Jupyter и TmpNb как его модификация.

Терминальные мультиплексоры, автоматизация работы с ними.

Модуль 2 - Системы контроля версий

Системы контроля версий в современных проектах.

CVS – первая система контроля версий.

SVN.

Современные VCS – Git, Mercurial и работа с ними.

Работа над проектами в команде.

Автоматизация работы с Git.

Модуль 3 - Виртуализация

Виртуализация. Её виды (контейнерная, на уровне ОС).

Современные платформы виртуализации и работа с ними.

Автоматизация работы с виртуальными окружениями.

Модуль 4 - Непрерывная интеграция

Непрерывная интеграция (continuous integration) и её этапы.

Основные инструменты CI и их связь с VCS.

Модуль 5 - Оркестрация контейнеров. Kubernetes

Компьютерные сети, модель OSI, её уровни.

Сетевые протоколы обмена информацией.

Блок 2 - Хранение и обработка больших объёмов данных

Модуль 1 - Распределённые файловые системы (GFS, HDFS)

Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.

Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.

Модуль 2 - Парадигма MapReduce

Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.

Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.

API для работы с Hadoop (Native Java API vs. Streaming), примеры.

MapReduce, продолжение.

Типы Join'ов и их реализации в парадигме MR.

Паттерны проектирования MR (pairs, stripes, составные ключи).

Модуль 3 - Управление ресурсами Hadoop-кластера. YARN

Hadoop MRv1 vs. YARN.

Нововведения в последних версиях Hadoop.

Планировщик задач в YARN. Apache Slide.

Модуль 4 - SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive

SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.

Повторение SQL.

HiveQL vs. SQL.

Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.

Аналитические функции в Hive.

Расширения Hive: Streaming, User defined functions.

Оптимизация запросов в Hive.

Модуль 5 - Технологии обработки данных в распределенной оперативной памяти. Apache Spark

Spark RDD vs Spark Dataframes

Spark SQL

Spark GraphFrames

Модуль 6 - Обработка данных в реальном времени. Kafka, Spark Streaming

Обработка данных в реальном времени.

Spark Streaming.

Распределённая очередь Apache Kafka. Kafka streams.

Модуль 7 - BigData NoSQL, Key-value базы данных

HBase.

NoSQL подходы к реализации распределенных баз данных, key-value хранилища.

Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.

Чтение, запись и хранение данных в HBase.

Minor- и major-компактификация.

Надёжность и отказоустойчивость в HBase.

Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.

Примеры применения HBase и Cassandra.

Отличие архитектуры HBase от Сassandra.

Блок 3 - Машинное обучение на больших объёмах данных

Модуль 1 - Методы оптимизации и линейные модели

Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.

Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.

Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.

Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.

Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.

Оптимизация и тестирование гиперпараметров. Симплекс-метод.

Модуль 2 - Алгоритмы работы с графами большого размера

Графы, их виды. Стохастический граф.

Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.

Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.

Граф пользовательских предпочтений.

Использование подхода BigData в анализе графов

Модуль 3 - Информационный поиск

Постановка ранжирования. Основные подходы к решению задачи ранжирования

Метрики измерения точности ранжирования. Кликовые модели.

Тематическое моделирование и его связь с ранжированием.

Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.

Модуль 4 - Рекомендательные системы

Рекомендательные системы, постановка задачи предсказания / рекомендации. Классификация рекомендательных систем. Неперсонализированные рекомендательные системы, content-based рекомендательные системы.

Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты. Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.

Латентные методы на основе матричных разложений. Методы ALS и iALS.

Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.

Продажник

Войти или зарегистрироваться

Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

Поделиться этой страницей

Войти или зарегистрироваться

Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

Поделиться этой страницей

Быстрый поиск