Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Заключение»

Created Diff never expires
11 刪除
總計
刪除
單詞
總計
刪除
要繼續使用此功能,請升級到
Diffchecker logo
Diffchecker Pro
19
13 新增
總計
新增
單詞
總計
新增
要繼續使用此功能,請升級到
Diffchecker logo
Diffchecker Pro
21
Заключение и что впереди
Заключение


Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы Reinforcement Learning и сформулировали задачу о самоуправляемом такси как задачу Reinforcement Learning, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.
Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы обучения с усилением и сформулировали задачу о самоуправляемом такси как задачу обучения с усилением, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.


Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.
Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.


Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что при большом количестве состояний в среде становится трудно реализовать их с помощью Q-таблицы, так как ее размер становится очень и очень большим.
Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что когда количество состояний в среде становится очень большим, становится трудно реализовать их с помощью Q-table, так как ее размер становится очень и очень большим.


Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.
Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.


Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -
Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -


Превратите этот код в модуль функций, который может использовать несколько сред
Превратите этот код в модуль функций, которые могут использовать несколько окружений
Настроить альфу, гамму и/или эпсилон с помощью распада по эпизодам
Реализовать сеточный поиск для определения наилучших гиперпараметров


"Оказалось, что Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Очень трудно получить достаточно данных для алгоритмов обучения с усилением".
Настройте альфу, гамму и/или эпсилон, используя распад по эпизодам


- Эндрю Нг
Реализуйте сеточный поиск для выявления наилучших гиперпараметров

Оказывается, Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Получить достаточно данных для алгоритмов Reinforcement Learning очень сложно.

— Andrew Ng