Открыто

Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 9 дек 2021.

Цена: 23450р.-92%
Взнос: 1732р.

Основной список: 15 участников

Резервный список: 2 участников

  1. 9 дек 2021
    #1
    Toxich
    Toxich ЧКЧлен клуба
    Основы Apache Hadoop [2022]
    Специалист
    Сергей Шуйков


    Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

    Проект используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

    На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

    Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

    Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

    Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

    Вы научитесь:
    1. Настраивать виртуальные машины для запуска Hadoop приложений.
    2. Работать с файловой системой HDFS.
    3. Создавать распределенное приложение, работающее на узлах кластера Hadoop.

    Вы будете знать:
    1. Архитектуру Hadoop;
    2. Распределенную файловую систему HDFS;
    3. Классический MapReduce;
    4. Использование YARN;

    Модуль 1 - Архитектура Hadoop
    • Лабораторная: Создание и конфигурирование виртуальных машин.
    Модуль 2 - Распределенная файловая система HDFS
    • Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.
    Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce
    • Лабораторная: Управление приложением и ресурсами.
    Модуль 4 - Архитектура YARN
    • Лабораторная: Управление ресурсами кластера.
    Модуль 5 - Выполнение задач в приложении MapReduce и YARN
    • Лабораторная: Использование распределенного кэша.
    Модуль 6 - Использование потоковой обработки (Hadoop Streaming)

    Модуль 7 - Компоненты экосистемы Hadoop
    • Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
    • Введение в Sqoop (взаимодействие с классическими реляционными базами).

    Продажник
     
    1 человеку нравится это.
  2. Последние события

    1. EvgenDBA
      EvgenDBA участвует.
      16 янв 2024
    2. AlexEmart
      AlexEmart участвует.
      4 авг 2023
    3. Cantona56
      Cantona56 не участвует.
      24 июл 2023
    4. Ant098
      Ant098 участвует.
      20 май 2023

    Последние важные события

    1. skladchik.com
      Нужен организатор складчины.
      29 май 2022
    2. skladchik.com
      Назначен организатор.
      28 май 2022

Поделиться этой страницей