Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Вознаграждение»

Created Diff never expires
4 suppressions
Lignes
Total
Supprimé
Mots
Total
Supprimé
Pour continuer à utiliser cette fonctionnalité, passez à
Diffchecker logo
Diffchecker Pro
11 lignes
4 ajouts
Lignes
Total
Ajouté
Mots
Total
Ajouté
Pour continuer à utiliser cette fonctionnalité, passez à
Diffchecker logo
Diffchecker Pro
11 lignes
1. Вознаграждения
1. Награды (Rewards)


Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:
Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:


Агент должен получать высокую положительную награду за успешную посадку, потому что такое поведение очень желательно.
Агент должен получать большое положительное вознаграждение за успешную высадку, поскольку такое поведение очень желательно.


Агент должен быть наказан, если он попытается высадить пассажира в неправильном месте.
Агент должен быть наказан, если он пытается высадить пассажира в неправильном месте.


Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.
Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.


"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.
"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.