Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Заключение»

Created Diff never expires
11 removals
Lines
Total
Removed
Words
Total
Removed
To continue using this feature, upgrade to
Diffchecker logo
Diffchecker Pro
19 lines
13 additions
Lines
Total
Added
Words
Total
Added
To continue using this feature, upgrade to
Diffchecker logo
Diffchecker Pro
21 lines
Заключение и что впереди
Заключение


Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы Reinforcement Learning и сформулировали задачу о самоуправляемом такси как задачу Reinforcement Learning, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.
Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы обучения с усилением и сформулировали задачу о самоуправляемом такси как задачу обучения с усилением, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.


Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.
Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.


Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что при большом количестве состояний в среде становится трудно реализовать их с помощью Q-таблицы, так как ее размер становится очень и очень большим.
Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что когда количество состояний в среде становится очень большим, становится трудно реализовать их с помощью Q-table, так как ее размер становится очень и очень большим.


Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.
Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.


Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -
Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -


Превратите этот код в модуль функций, который может использовать несколько сред
Превратите этот код в модуль функций, которые могут использовать несколько окружений
Настроить альфу, гамму и/или эпсилон с помощью распада по эпизодам
Реализовать сеточный поиск для определения наилучших гиперпараметров


"Оказалось, что Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Очень трудно получить достаточно данных для алгоритмов обучения с усилением".
Настройте альфу, гамму и/или эпсилон, используя распад по эпизодам


- Эндрю Нг
Реализуйте сеточный поиск для выявления наилучших гиперпараметров

Оказывается, Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Получить достаточно данных для алгоритмов Reinforcement Learning очень сложно.

— Andrew Ng