Q-Learning Solver - Problemă personalizată

Configurează problema Q-Learning

Dimensiune grid:

Stil denumire:

Stare goal: Recompensă goal:

Stare trap: Recompensă trap:

Recompensă pas normal:

α (learning rate):

γ (discount factor):

Formula Q-learning:

Q(s,a) ← Q(s,a) + α[R + γ · max_a' Q(s',a') − Q(s,a)]

Adaugă observațiile pe care agentul le-a experimentat:

#	Stare (s)	Actiune (a)	Stare următoare (s')	Recompensă(R)	Șterge