Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Заключение»
19 lines
Заключение и что впереди
Заключение
Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы Reinforcement Learning и сформулировали задачу о самоуправляемом такси как задачу Reinforcement Learning, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.
Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы обучения с усилением и сформулировали задачу о самоуправляемом такси как задачу обучения с усилением, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.
Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.
Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.
Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что при большом количестве состояний в среде становится трудно реализовать их с помощью Q-таблицы, так как ее размер становится очень и очень большим.
Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что когда количество состояний в среде становится очень большим, становится трудно реализовать их с помощью Q-table, так как ее размер становится очень и очень большим.
Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.
Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.
Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -
Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -
Превратите этот код в модуль функций, который может использовать несколько сред
Превратите этот код в модуль функций, которые могут использовать несколько окружений
Настроить альфу, гамму и/или эпсилон с помощью распада по эпизодам
Реализовать сеточный поиск для определения наилучших гиперпараметров
"Оказалось, что Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Очень трудно получить достаточно данных для алгоритмов обучения с усилением".
Настройте альфу, гамму и/или эпсилон, используя распад по эпизодам
- Эндрю Нг
Реализуйте сеточный поиск для выявления наилучших гиперпараметров
Оказывается, Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Получить достаточно данных для алгоритмов Reinforcement Learning очень сложно.
— Andrew Ng