Закрыто

Машинное обучение с подкреплением на Python [Udemy] [Центр digital-профессий ITtensive]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 19 дек 2021.

Цена: 999р.-86%
Взнос: 134р.
100%

Основной список: 27 участников

Статус обсуждения:
Комментирование ограничено.
  1. 19 дек 2021
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба
    Машинное обучение с подкреплением на Python
    Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

    Описание
    Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

    1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

    Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

    Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

    2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

    Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

    Проект: разработка оптимизированной DQN для балансировки тележки.

    3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

    Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

    Проект: расчет оптимальной стратегии игры в блекджек.

    Теория по курсу включает:
    • Задачи машинного обучения и обучения с подкреплением

    • Метрики обучения с подкреплением

    • Проблема баланса эксплуатации и разведки

    • Цепь случайных процессов Маркова

    • Принцип и уравнение Беллмана

    • Методы Монте-Карло

    • Q-таблица и Q-обучение

    • Эпсилон-жадная стратегии

    • Эпсилон-жадная стратегия с убыванием

    • UCB-стратегия

    • Стратегия Томпсона

    • Создание и обучение Deep Q-Network

    • Кратковременная и долговременная память

    • Единая и разделенная политики
    Скрытая ссылка
     
    Последнее редактирование модератором: 19 дек 2021
  2. Последние события

    1. skladchik.com
      Складчина закрыта.
      2 мар 2022
    2. skladchik.com
      Складчина доступна.
      26 дек 2021
    3. skladchik.com
      Взнос составляет 67р.
      26 дек 2021
    4. skladchik.com
      Складчина активна.
      26 дек 2021

    Последние важные события

    1. skladchik.com
      Складчина закрыта.
      2 мар 2022
    2. skladchik.com
      Складчина доступна.
      26 дек 2021
    3. skladchik.com
      Взнос составляет 67р.
      26 дек 2021
    4. skladchik.com
      Складчина активна.
      26 дек 2021
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей