Открыто

Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 22 июл 2022.

Цена: 136000р.-95%
Взнос: 5700р.

Основной список: 26 участников

Резервный список: 6 участников

  1. 22 июл 2022
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Разработчик BigData [2022]
    МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
    Олег Ивченко


    Программа профессиональной переподготовки.

    Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.

    Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.

    Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.

    Кому подойдёт профессия разработчик BigData:
    1. Разработчик
    Сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.​
    2. Аналитик
    Сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.​
    3. Data engineer
    Курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.​
    4. Data scientist
    Получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.​

    Блок 1 - Технологии программирования и операционные системы
    Модуль 1 - Семейство ОС Unix. Современные инструменты для работы в консоли
    • Семейство ОС Unix, основные дистрибутивы и их отличия.
    • Основные командные интерпретаторы, их отличия.
    • Утилита sed, язык awk.
    • Использование Python как заменителя shell.
    • Jupyter и TmpNb как его модификация.
    • Терминальные мультиплексоры, автоматизация работы с ними.
    Модуль 2 - Системы контроля версий
    • Системы контроля версий в современных проектах.
    • CVS – первая система контроля версий.
    • SVN.
    • Современные VCS – Git, Mercurial и работа с ними.
    • Работа над проектами в команде.
    • Автоматизация работы с Git.
    Модуль 3 - Виртуализация
    • Виртуализация. Её виды (контейнерная, на уровне ОС).
    • Современные платформы виртуализации и работа с ними.
    • Автоматизация работы с виртуальными окружениями.
    Модуль 4 - Непрерывная интеграция
    • Непрерывная интеграция (continuous integration) и её этапы.
    • Основные инструменты CI и их связь с VCS.
    Модуль 5 - Оркестрация контейнеров. Kubernetes
    • Компьютерные сети, модель OSI, её уровни.
    • Сетевые протоколы обмена информацией.
    Блок 2 - Хранение и обработка больших объёмов данных
    Модуль 1 - Распределённые файловые системы (GFS, HDFS)
    • Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.
    • Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.
    Модуль 2 - Парадигма MapReduce
    • Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.
    • Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.
    • API для работы с Hadoop (Native Java API vs. Streaming), примеры.
    • MapReduce, продолжение.
    • Типы Join'ов и их реализации в парадигме MR.
    • Паттерны проектирования MR (pairs, stripes, составные ключи).
    Модуль 3 - Управление ресурсами Hadoop-кластера. YARN
    • Hadoop MRv1 vs. YARN.
    • Нововведения в последних версиях Hadoop.
    • Планировщик задач в YARN. Apache Slide.
    Модуль 4 - SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive
    • SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
    • Повторение SQL.
    • HiveQL vs. SQL.
    • Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
    • Аналитические функции в Hive.
    • Расширения Hive: Streaming, User defined functions.
    • Оптимизация запросов в Hive.
    Модуль 5 - Технологии обработки данных в распределенной оперативной памяти. Apache Spark
    • Spark RDD vs Spark Dataframes
    • Spark SQL
    • Spark GraphFrames
    Модуль 6 - Обработка данных в реальном времени. Kafka, Spark Streaming
    • Обработка данных в реальном времени.
    • Spark Streaming.
    • Распределённая очередь Apache Kafka. Kafka streams.
    Модуль 7 - BigData NoSQL, Key-value базы данных
    • HBase.
    • NoSQL подходы к реализации распределенных баз данных, key-value хранилища.
    • Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.
    • Чтение, запись и хранение данных в HBase.
    • Minor- и major-компактификация.
    • Надёжность и отказоустойчивость в HBase.
    • Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
    • Примеры применения HBase и Cassandra.
    • Отличие архитектуры HBase от Сassandra.
    Блок 3 - Машинное обучение на больших объёмах данных
    Модуль 1 - Методы оптимизации и линейные модели
    • Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
    • Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
    • Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
    • Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
    • Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
    • Оптимизация и тестирование гиперпараметров. Симплекс-метод.
    Модуль 2 - Алгоритмы работы с графами большого размера
    • Графы, их виды. Стохастический граф.
    • Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
    • Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
    • Граф пользовательских предпочтений.
    • Использование подхода BigData в анализе графов
    Модуль 3 - Информационный поиск
    • Постановка ранжирования. Основные подходы к решению задачи ранжирования
    • Метрики измерения точности ранжирования. Кликовые модели.
    • Тематическое моделирование и его связь с ранжированием.
    • Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.
    Модуль 4 - Рекомендательные системы
    • Рекомендательные системы, постановка задачи предсказания / рекомендации. Классификация рекомендательных систем. Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
    • Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты. Корреляционные методы, методы сходства (neighbourhood) - user-based, item-based.
    • Латентные методы на основе матричных разложений. Методы ALS и iALS.
    • Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.

    Продажник
     
  2. Последние события

    1. SubZer0
      SubZer0 участвует.
      25 апр 2024
    2. drugster80
      drugster80 не участвует.
      26 мар 2024
    3. gohas
      gohas не участвует.
      15 янв 2024
    4. skladchik.com
      В складчине участвует 30 человек(а).
      19 окт 2023

Поделиться этой страницей