0% found this document useful (0 votes)

5 views6 pages

2025 Reinforcement Learning Basics

Uploaded by

fangda00

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views6 pages

2025 Reinforcement Learning Basics

Uploaded by

fangda00

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

Reinforcement Learning Basics

A six■slide crash course for engineers & researchers

What you’ll learn

• What RL is: sequential decision■making by learning to act via rewards.
• Key ingredients: agent, environment, state, action, reward, policy, value.
• Mathematical model: Markov Decision Processes (MDPs).
• Core learning paradigms: Dynamic Programming, Monte■Carlo, Temporal■Difference.
• Algorithms you should know: Q■learning, SARSA, Policy Gradient, Actor■Critic, DQN.
• Practical tips: exploration, stability, sample efficiency, evaluation, resources.

Reinforcement Learning Basics • Page 1 of 6

The Reinforcement Learning Problem
Goal: learn a policy π(a|s) that maximizes expected return.
Return (discounted cumulative reward):
Gt = rt+1 + γ rt+2 + γ² rt+3 + ··· = ∑k=0∞ γk rt+k+1

Agent–Environment Loop
• At time t: observe state st, pick action at ~ π(·|st).
• Environment returns reward rt+1 and next state st+1.
• Objective: maximize J(π) = ■π[G0].

On■policy vs Off■policy
• On■policy: learn about the policy being used to generate data (e.g., SARSA).
• Off■policy: learn about a target policy from data generated by a (possibly different) behavior policy (e.g.,
Q■learning).

Reinforcement Learning Basics • Page 2 of 6

MDPs & Value Functions
We model tasks as an MDP: ■ = (■, ■, P, R, γ) with Markov property.

Value functions:
State■value: Vπ(s) = ■π[Gt | st=s]
Action■value: Qπ(s,a) = ■π[Gt | st=s, at=a]

Bellman equations:
Vπ(s) = ■a∼π, s′∼P[ r(s,a) + γ Vπ(s′) ]
Qπ(s,a) = ■s′∼P[ r(s,a) + γ ■a′∼π[ Qπ(s′,a′) ] ]

Optimality & Improvement:

• Optimal value: V*(s) = maxa Q*(s,a).
• Bellman optimality: Q*(s,a) = ■[ r + γ maxa′ Q*(s′,a′) ].
• Policy improvement: greedify w.r.t. current value ⇒ monotonic improvement.

Reinforcement Learning Basics • Page 3 of 6

Core Learning Paradigms
Dynamic Programming (DP)
• Requires known model (P, R); sweeps over state space.
• Policy evaluation ■ policy improvement (Policy Iteration).
• Value Iteration: one■step lookahead + max backup.

Monte■Carlo (MC)
• No model; learn from complete episodes.
• Target is empirical return; unbiased but high variance.

Temporal■Difference (TD)
• Bootstraps from estimates; learn online, from partial episodes.
• TD(0) update: V(s) ← V(s) + α [ r + γ V(s′) − V(s) ].
• Unbiased model■free targets with lower variance than MC.

Reinforcement Learning Basics • Page 4 of 6

Algorithms You Should Know
Value■based
• Q■learning (off■policy): Q(s,a) ← Q(s,a) + α [ r + γ maxa′ Q(s′,a′) − Q(s,a) ].
• SARSA (on■policy): Q(s,a) ← Q(s,a) + α [ r + γ Q(s′,a′) − Q(s,a) ].
• Deep Q■Network (DQN): experience replay + target network for stability.

Policy■based
• REINFORCE: ∇θ J = ■[ ∑ ∇θ log πθ(a|s) (Gt − b) ].
• Baselines/advantages reduce variance (e.g., A2C/A3C, GAE).

Actor■Critic
• Actor updates policy; Critic learns value (V or Q).
• Modern stable methods: PPO/TRPO (clipping or KL constraints).
• Exploration: ε■greedy, entropy regularization, softmax over Q.
• Function approximation: linear → deep NNs; beware divergence off■policy.

Reinforcement Learning Basics • Page 5 of 6

Practice, Pitfalls, & Resources
Practical Tips
• Reward design: align incentives; avoid unintended shortcuts.
• Stability: target networks, normalization, gradient clipping, proper γ.
• Sample efficiency: replay buffers, off■policy learners, model■based rollouts.
• Partial observability: use history, RNNs, or belief states (POMDPs).
• Safety & evaluation: offline metrics, ablations, confidence intervals.

Common Failure Modes

• Function approximation + off■policy + bootstrapping ⇒ divergence.
• Sparse rewards ⇒ exploration collapse (consider shaping or intrinsic bonuses).
• Distribution shift from replay/behavior policy.

Resources
• Sutton & Barto, Reinforcement Learning: An Introduction (2nd ed.)
• OpenAI Spinning Up; Gymnasium; CleanRL; RLlib; Dopamine.
• Classic benchmarks: CartPole, MountainCar, Atari, MuJoCo.

Reinforcement Learning Basics • Page 6 of 6

DLMAIRIL01 Q4-2024 Session4
No ratings yet
DLMAIRIL01 Q4-2024 Session4
80 pages
Advanced Reinforcement Learning
No ratings yet
Advanced Reinforcement Learning
46 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
46 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
45 pages
Reinforcement Learning: Karan Kathpalia
No ratings yet
Reinforcement Learning: Karan Kathpalia
80 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
52 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
51 pages
Fundamentals of Reinforcement Learning
No ratings yet
Fundamentals of Reinforcement Learning
33 pages
11-DL-Deep Learning For Reinforcement Learning
No ratings yet
11-DL-Deep Learning For Reinforcement Learning
47 pages
Artificial Intelligence: Lecture 10 - Reinforcement Learning Prof. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 10 - Reinforcement Learning Prof. Shivanjali Khare
45 pages
L13 Reinforcement Learning
No ratings yet
L13 Reinforcement Learning
57 pages
Artificial Intelligence: Computer Science & Engineering, Khulna University
No ratings yet
Artificial Intelligence: Computer Science & Engineering, Khulna University
30 pages
CMPE257 - W10C13 - Reinforcement Learning
No ratings yet
CMPE257 - W10C13 - Reinforcement Learning
161 pages
Lecture 9 Reiforcement Learning
No ratings yet
Lecture 9 Reiforcement Learning
29 pages
Lecture 30 Reinforcement-Learning
No ratings yet
Lecture 30 Reinforcement-Learning
50 pages
IntroductiontoRL BR
No ratings yet
IntroductiontoRL BR
22 pages
Unit-8 - Reinforcement Learning
No ratings yet
Unit-8 - Reinforcement Learning
52 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
30 pages
Add-On DRL CS06
No ratings yet
Add-On DRL CS06
23 pages
SP14 CS188 Lecture 10 - Reinforcement Learning I
No ratings yet
SP14 CS188 Lecture 10 - Reinforcement Learning I
35 pages
CSE 445 - Lecture 9 - Reinforcement Learning
No ratings yet
CSE 445 - Lecture 9 - Reinforcement Learning
45 pages
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
No ratings yet
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
40 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
38 pages
Reinforcement Learning MY101
No ratings yet
Reinforcement Learning MY101
15 pages
37 RL
No ratings yet
37 RL
18 pages
Reinforcement Learning Guide
No ratings yet
Reinforcement Learning Guide
18 pages
DLMAIRIL01 Q4-2024 Session2
No ratings yet
DLMAIRIL01 Q4-2024 Session2
68 pages
Unit-6 Reinforcement Learning
No ratings yet
Unit-6 Reinforcement Learning
75 pages
Lecture Notes On Reinforcement Learning Basics
No ratings yet
Lecture Notes On Reinforcement Learning Basics
6 pages
MLT Unit-5 Notes
No ratings yet
MLT Unit-5 Notes
17 pages
Andy 2
No ratings yet
Andy 2
73 pages
A Crash Course On Reinforcement Learning - Felix Wagner
No ratings yet
A Crash Course On Reinforcement Learning - Felix Wagner
84 pages
Markov Decision & RL Overview
No ratings yet
Markov Decision & RL Overview
39 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
9 pages
Syllabus & YT Links - Reinforcement Learning
No ratings yet
Syllabus & YT Links - Reinforcement Learning
1 page
Lecture#5 Monte Carlo Methods Part I
No ratings yet
Lecture#5 Monte Carlo Methods Part I
28 pages
7 - Reinforcement Learning
No ratings yet
7 - Reinforcement Learning
23 pages
19 - Monte Carlo and Temporal Difference For Markov Decision Processes
No ratings yet
19 - Monte Carlo and Temporal Difference For Markov Decision Processes
57 pages
Lec17 ReinforcementLearning
No ratings yet
Lec17 ReinforcementLearning
58 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
32 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
28 pages
Reinforcement Learning Note
No ratings yet
Reinforcement Learning Note
16 pages
Unit Vi
No ratings yet
Unit Vi
17 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
31 pages
Reinforcement Learning Insights
No ratings yet
Reinforcement Learning Insights
4 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
6 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
86 pages
Unit 5 Deep Learning
No ratings yet
Unit 5 Deep Learning
24 pages
DLMAIRIL01 Q4-2024 Session1
No ratings yet
DLMAIRIL01 Q4-2024 Session1
84 pages
Unit 5
No ratings yet
Unit 5
45 pages
Reinforcement Learning Basics
No ratings yet
Reinforcement Learning Basics
19 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
38 pages
L-14 - Reinforcement-L-d-07062024-111949am
No ratings yet
L-14 - Reinforcement-L-d-07062024-111949am
22 pages
Fai Mid2 4ans
No ratings yet
Fai Mid2 4ans
4 pages
Lec 04 Reinforcement Learning
No ratings yet
Lec 04 Reinforcement Learning
57 pages
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
No ratings yet
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
46 pages
Unit 5 Reinforcement Learning Notes
No ratings yet
Unit 5 Reinforcement Learning Notes
20 pages
이명훈 인천대학교 final
No ratings yet
이명훈 인천대학교 final
68 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
10 pages
Week 1 Introduction To The Machine Learning Course
No ratings yet
Week 1 Introduction To The Machine Learning Course
10 pages
Chapter 2 3 Problem and Methodology RL Report Kiran
No ratings yet
Chapter 2 3 Problem and Methodology RL Report Kiran
3 pages
Chatbot Assessment Northern University Bangladesh
No ratings yet
Chatbot Assessment Northern University Bangladesh
12 pages
No - Ntnu Inspera 187579291 24496466
No ratings yet
No - Ntnu Inspera 187579291 24496466
92 pages
AI Techniques in Mobile Robotics
No ratings yet
AI Techniques in Mobile Robotics
75 pages
IJNRD2404266
No ratings yet
IJNRD2404266
7 pages
MDP For Traffic Light Control Based On Multi-Agent Reinforcement
No ratings yet
MDP For Traffic Light Control Based On Multi-Agent Reinforcement
20 pages
ML Lab Manual-1 (1) (M.tech CSE) NEW
No ratings yet
ML Lab Manual-1 (1) (M.tech CSE) NEW
51 pages
Alireza (Ali) Alian Porzani: Core Competencies
No ratings yet
Alireza (Ali) Alian Porzani: Core Competencies
2 pages
Energy-Efficient Robot Trajectory Optimization
No ratings yet
Energy-Efficient Robot Trajectory Optimization
7 pages
Traffic Flow Optimization A Reinforcement Learning Approach
No ratings yet
Traffic Flow Optimization A Reinforcement Learning Approach
10 pages
Robust Voltage Control via DRL
No ratings yet
Robust Voltage Control via DRL
14 pages
Machine Learning - Machine - Learning - Tutorial
No ratings yet
Machine Learning - Machine - Learning - Tutorial
35 pages
Course Overview: Reinforcement Learning
No ratings yet
Course Overview: Reinforcement Learning
20 pages
Urban AV Platoon Control Strategy
No ratings yet
Urban AV Platoon Control Strategy
16 pages
ML Lab
No ratings yet
ML Lab
75 pages
(2205.08936) 内容
No ratings yet
(2205.08936) 内容
53 pages
A Gantry Robot System For Cutting Single
No ratings yet
A Gantry Robot System For Cutting Single
11 pages
Deepseek-Coder-V2: Breaking The Barrier of Closed-Source Models in Code Intelligence
No ratings yet
Deepseek-Coder-V2: Breaking The Barrier of Closed-Source Models in Code Intelligence
19 pages
Distributional Reinforcement Learning For Scheduling of Chemical Production Processes
No ratings yet
Distributional Reinforcement Learning For Scheduling of Chemical Production Processes
39 pages
ML R20 Material
No ratings yet
ML R20 Material
96 pages
Abhivyakti'24 Compressed
No ratings yet
Abhivyakti'24 Compressed
87 pages
UGRD CYBS6101 Artificial Intelligence Fundamentals Final Lab Exam - 92 Over 100
No ratings yet
UGRD CYBS6101 Artificial Intelligence Fundamentals Final Lab Exam - 92 Over 100
17 pages
Implicit Quantile Networks For Distributional Reinforcement Learning, Will Dabney Et Al., 2018, v1
No ratings yet
Implicit Quantile Networks For Distributional Reinforcement Learning, Will Dabney Et Al., 2018, v1
14 pages
Intelligent Router For LLM Workloads: Improving Performance Through Workload-Aware Scheduling
No ratings yet
Intelligent Router For LLM Workloads: Improving Performance Through Workload-Aware Scheduling
16 pages
Reinforcement Learning For Building Management Systems
No ratings yet
Reinforcement Learning For Building Management Systems
9 pages
Scaling Reasoning in Diffusion Large Language Models Via Reinforcement Learning
No ratings yet
Scaling Reasoning in Diffusion Large Language Models Via Reinforcement Learning
25 pages
1 Introduction
No ratings yet
1 Introduction
31 pages

2025 Reinforcement Learning Basics

Uploaded by

2025 Reinforcement Learning Basics

Uploaded by

Reinforcement Learning Basics

A six■slide crash course for engineers & researchers

What you’ll learn

Reinforcement Learning Basics • Page 1 of 6

Reinforcement Learning Basics • Page 2 of 6

Optimality & Improvement:

Reinforcement Learning Basics • Page 3 of 6

Reinforcement Learning Basics • Page 4 of 6

Reinforcement Learning Basics • Page 5 of 6

Common Failure Modes

Reinforcement Learning Basics • Page 6 of 6

You might also like