1. Configurare grid
3. Parametri Q-Learning
Formula Q-learning:
Q(s,a) ← Q(s,a) + α[R + γ · maxa' Q(s',a') − Q(s,a)]
4. Observații (experiența agentului)
Adaugă observațiile pe care agentul le-a experimentat:
| # |
Stare (s) |
Actiune (a) |
Stare următoare (s') |
Recompensă(R) |
Șterge |