Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Вознаграждение»

Created Diff never expires
4 removals
Words removed8
Total words105
Words removed (%)7.62
11 lines
4 additions
Words added8
Total words105
Words added (%)7.62
11 lines
1. Вознаграждения
1. Награды (Rewards)


Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:
Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:


Агент должен получать высокую положительную награду за успешную посадку, потому что такое поведение очень желательно.
Агент должен получать большое положительное вознаграждение за успешную высадку, поскольку такое поведение очень желательно.


Агент должен быть наказан, если он попытается высадить пассажира в неправильном месте.
Агент должен быть наказан, если он пытается высадить пассажира в неправильном месте.


Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.
Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.


"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.
"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.