テキスト比較

2 つのテキストファイルの違いを見つける

リアルタイムdiff

統一diff

行を折りたたむ

変更をハイライト

シンタックスハイライト

ツール

Diffchecker Desktop The most secure way to run Diffchecker. Get the Diffchecker Desktop app: your diffs never leave your computer!Get Desktop

Гайд на Reinforcement Learning для новичков. Реализация простой задачи, раздел «Вознаграждение»

Created 2 years agoDiff never expires

行
合計
削除

単語
合計
削除

この機能を引き続き使用するには、アップグレードしてください Diffchecker Pro 価格を見る

11 行

行
合計
追加

単語
合計
追加

この機能を引き続き使用するには、アップグレードしてください Diffchecker Pro 価格を見る

1. Вознаграждения

1. Награды (Rewards)

Поскольку агент (воображаемый водитель) мотивирован на вознаграждение и собирается научиться управлять кабиной методом проб и ошибок, нам необходимо определить вознаграждение и/или наказание и их величину соответственно. Вот несколько моментов, которые следует рассмотреть:

Агент должен получать высокую положительную награду за успешную посадку, потому что такое поведение очень желательно.

Агент должен получать большое положительное вознаграждение за успешную высадку, поскольку такое поведение очень желательно.

Агент должен быть наказан, если он попытается высадить пассажира в неправильном месте.

Агент должен быть наказан, если он пытается высадить пассажира в неправильном месте.

Агент должен получать слегка отрицательное вознаграждение за то, что не добирается до места назначения после каждого временного шага.

"Слегка" отрицательное, потому что мы бы предпочли, чтобы наш агент добирался с опозданием, а не делал неверные движения, пытаясь добраться до места назначения как можно быстрее.

保存された差分

原文

ファイルを開く

変更されたテキスト

ファイルを開く