Value Iteration Solver - Problemă personalizată

Configurează problema MDP

Dimensiune grid:

Selectează modul de editare:

Normal

Zid

Goal

Trap

Recompensă Goal:

Recompensă Trap:

Living Reward (R):

Living reward se aplică la fiecare pas pentru stările non-terminale.

Gamma (discount):

P(succes direcție):

Număr iterații:

Formula Bellman:

U(s) ← R(s) + γ · max_a Σ P(s'|s,a) · U(s')

Cu P(succes) agentul alunecă lateral cu probabilitate (1 − P)/2 pe fiecare parte.