Value Iteration Solver - MDP

Configurează problema MDP

1. Configurare grid

Selectează modul de editare:

Normal
Zid
Goal
Trap

2. Recompense

Living reward se aplică la fiecare pas pentru stările non-terminale.

3. Parametri MDP

Formula Bellman:

U(s) ← R(s) + γ · maxa Σ P(s'|s,a) · U(s')

Cu P(succes) agentul alunecă lateral cu probabilitate (1 − P)/2 pe fiecare parte.

Rezultat

← Înapoi la meniu principal