Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Вознаграждение»

Created Diff never expires
4 removals
Lines
Total
Removed
Words
Total
Removed
To continue using this feature, upgrade to
Diffchecker logo
Diffchecker Pro
11 lines
4 additions
Lines
Total
Added
Words
Total
Added
To continue using this feature, upgrade to
Diffchecker logo
Diffchecker Pro
11 lines
1. Вознаграждения
1. Награды (Rewards)


Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:
Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:


Агент должен получать высокую положительную награду за успешную посадку, потому что такое поведение очень желательно.
Агент должен получать большое положительное вознаграждение за успешную высадку, поскольку такое поведение очень желательно.


Агент должен быть наказан, если он попытается высадить пассажира в неправильном месте.
Агент должен быть наказан, если он пытается высадить пассажира в неправильном месте.


Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.
Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.


"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.
"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.