Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Заключение»

Created Diff never expires
11 rimozioni
Linee
Totale
Rimosso
Parole
Totale
Rimosso
Per continuare a utilizzare questa funzione, aggiorna a
Diffchecker logo
Diffchecker Pro
19 linee
13 aggiunte
Linee
Totale
Aggiunto
Parole
Totale
Aggiunto
Per continuare a utilizzare questa funzione, aggiorna a
Diffchecker logo
Diffchecker Pro
21 linee
Заключение и что впереди
Заключение


Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы Reinforcement Learning и сформулировали задачу о самоуправляемом такси как задачу Reinforcement Learning, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.
Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы обучения с усилением и сформулировали задачу о самоуправляемом такси как задачу обучения с усилением, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.


Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.
Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.


Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что при большом количестве состояний в среде становится трудно реализовать их с помощью Q-таблицы, так как ее размер становится очень и очень большим.
Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что когда количество состояний в среде становится очень большим, становится трудно реализовать их с помощью Q-table, так как ее размер становится очень и очень большим.


Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.
Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.


Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -
Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -


Превратите этот код в модуль функций, который может использовать несколько сред
Превратите этот код в модуль функций, которые могут использовать несколько окружений
Настроить альфу, гамму и/или эпсилон с помощью распада по эпизодам
Реализовать сеточный поиск для определения наилучших гиперпараметров


"Оказалось, что Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Очень трудно получить достаточно данных для алгоритмов обучения с усилением".
Настройте альфу, гамму и/или эпсилон, используя распад по эпизодам


- Эндрю Нг
Реализуйте сеточный поиск для выявления наилучших гиперпараметров

Оказывается, Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Получить достаточно данных для алгоритмов Reinforcement Learning очень сложно.

— Andrew Ng