比較文本

尋找兩個文字檔案之間的差異

Real-time diff

Unified diff

Collapse lines

Highlight change

Syntax highlighting

工具

Diffchecker Desktop The most secure way to run Diffchecker. Get the Diffchecker Desktop app: your diffs never leave your computer!Get Desktop

Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Заключение»

Created about a year agoDiff never expires

Lines
Total
Removed

Words
Total
Removed

To continue using this feature, upgrade to Diffchecker Pro View Pricing

19 lines

Lines
Total
Added

Words
Total
Added

To continue using this feature, upgrade to Diffchecker Pro View Pricing

21 lines

Заключение и что впереди

Заключение

Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы Reinforcement Learning и сформулировали задачу о самоуправляемом такси как задачу Reinforcement Learning, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.

Отлично! Мы начали с понимания Reinforcement Learning с помощью реальных аналогий. Затем мы погрузились в основы обучения с усилением и сформулировали задачу о самоуправляемом такси как задачу обучения с усилением, используя OpenAI's Gym на python, чтобы предоставить нам соответствующую среду, в которой мы можем разработать нашего агента и оценить его.

Затем мы заметили, насколько ужасен был наш агент без использования какого-либо алгоритма для игры, поэтому мы приступили к реализации алгоритма Q-Learning с нуля. Производительность агента значительно улучшилась после внедрения Q-Learning.

Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что при большом количестве состояний в среде становится трудно реализовать их с помощью Q-таблицы, так как ее размер становится очень и очень большим.

Q-Learning - один из самых простых алгоритмов Reinforcement Learning. Однако проблема Q-Learning заключается в том, что когда количество состояний в среде становится очень большим, становится трудно реализовать их с помощью Q-table, так как ее размер становится очень и очень большим.

Современные методы используют глубокие нейронные сети вместо Q-таблицы (Deep Reinforcement Learning). Нейронная сеть получает информацию о состоянии и действиях на входной слой и учится выдавать правильные действия с течением времени.

Если вы хотите продолжить работу над этим проектом и сделать его лучше, вот несколько вещей, которые вы можете добавить -

Превратите этот код в модуль функций, который может использовать несколько сред

Превратите этот код в модуль функций, которые могут использовать несколько окружений

Настроить альфу, гамму и/или эпсилон с помощью распада по эпизодам

Реализовать сеточный поиск для определения наилучших гиперпараметров

"Оказалось, что Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Очень трудно получить достаточно данных для алгоритмов обучения с усилением".

Настройте альфу, гамму и/или эпсилон, используя распад по эпизодам

- Эндрю Нг

Реализуйте сеточный поиск для выявления наилучших гиперпараметров

Оказывается, Reinforcement Learning - это тип машинного обучения, который жаждет данных даже больше, чем Supervised Learning. Получить достаточно данных для алгоритмов Reinforcement Learning очень сложно.

— Andrew Ng

已保存差異

原始文本

開啟檔案