Comparar texto

Encontre a diferença entre dois arquivos de texto

Diff em tempo real

Diff unificado

Recolher linhas

Destacar alterações

Realce de sintaxe

Ferramentas

Diffchecker Desktop The most secure way to run Diffchecker. Get the Diffchecker Desktop app: your diffs never leave your computer!Get Desktop

Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Вознаграждение»

Created 2 years agoDiff never expires

Linhas
Total
Removido

Palavras
Total
Removido

Para continuar usando este recurso, atualize para Diffchecker Pro Ver preços

11 linhas

Linhas
Total
Adicionado

Palavras
Total
Adicionado

Para continuar usando este recurso, atualize para Diffchecker Pro Ver preços

1. Вознаграждения

1. Награды (Rewards)

Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:

Агент должен получать высокую положительную награду за успешную посадку, потому что такое поведение очень желательно.

Агент должен получать большое положительное вознаграждение за успешную высадку, поскольку такое поведение очень желательно.

Агент должен быть наказан, если он попытается высадить пассажира в неправильном месте.

Агент должен быть наказан, если он пытается высадить пассажира в неправильном месте.

Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.

"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.

Diferenças salvas

Texto original

Abrir arquivo

Texto alterado

Abrir arquivo