SARSA

Estat-acció-recompensa-estat-acció (SARSA) és un algorisme per aprendre una política de procés de decisió de Màrkov, utilitzat a l'àrea d'aprenentatge de reforç de l'aprenentatge automàtic. Va ser proposat per Rummery i Niranjan en una nota tècnica ^[1] amb el nom de "Modified Connectionist Q-Learning" (MCQ-L). El nom alternatiu SARSA, proposat per Rich Sutton, només s'esmentava com a nota a peu de pàgina.^[2]

Aquest nom reflecteix el fet que la funció principal per actualitzar el valor Q depèn de l'estat actual de l'agent "S₁", l'acció que l'agent tria "A₁", la recompensa "R₂" que rep l'agent per triar-la. acció, l'estat "S₂" en què entra l'agent després de fer aquesta acció, i finalment la següent acció "A₂" que l'agent tria en el seu nou estat. L'acrònim del quíntuple (S _t, A _t, R _t+1, S _t+1, A _t+1) és SARSA.^[3] Alguns autors utilitzen una convenció lleugerament diferent i escriuen el quíntuple (S_t, A_t,_Rt, S_t+1, A_t+1), en funció de quin pas de temps s'assigna formalment la recompensa. La resta de l'article utilitza la convenció anterior.

Algorisme

$Q^{new}(S_{t},A_{t})\leftarrow (1-\alpha )Q(S_{t},A_{t})+\alpha \,[R_{t+1}+\gamma \,Q(S_{t+1},A_{t+1})]$

Un agent SARSA interactua amb l'entorn i actualitza la política en funció de les accions realitzades, per això es coneix com a algorisme d'aprenentatge de polítiques. El valor Q d'una acció d'estat s'actualitza per un error, ajustat per la taxa d'aprenentatge α. Els valors Q representen la possible recompensa rebuda en el següent pas de temps per prendre l'acció a a l'estat s, més la recompensa futura descomptada rebuda de la següent observació de l'acció de l'estat.

El Q-learning de Watkin actualitza una estimació de la funció òptima de valor d'acció de l'estat $Q^{*}$ basat en la màxima recompensa de les accions disponibles. Mentre que SARSA aprèn els valors Q associats amb l'adopció de la política que segueix, el Q-learning de Watkin aprèn els valors Q associats amb l'adopció de la política òptima mentre segueix una política d'exploració/explotació.

Algunes optimitzacions del Q-learning de Watkin es poden aplicar a SARSA.^[4]

Referències

↑ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994)
↑ «State-Action-Reward-State-Action» (en anglès). [Consulta: 21 març 2024].
↑ Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto (chapter 6.4)
↑ Wiering, Marco; Schmidhuber, Jürgen (en anglès) Machine Learning, 33, 1, 01-10-1998, pàg. 105–115. DOI: 10.1023/A:1007562800292. ISSN: 0885-6125 [Consulta: free].

[1] Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994)

[2] «State-Action-Reward-State-Action» (en anglès). [Consulta: 21 març 2024].

[3] Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto (chapter 6.4)

[4] Wiering, Marco; Schmidhuber, Jürgen (en anglès) Machine Learning, 33, 1, 01-10-1998, pàg. 105–115. DOI: 10.1023/A:1007562800292. ISSN: 0885-6125 [Consulta: free].

[1]

[2]

[3]

[4]