Selectează modul de editare:
Living reward se aplică la fiecare pas pentru stările non-terminale.
Formula Bellman:
U(s) ← R(s) + γ · maxa Σ P(s'|s,a) · U(s')
Cu P(succes) agentul alunecă lateral cu probabilitate (1 − P)/2 pe fiecare parte.