Energy-Efficient Robot Trajectory Optimization

Uploaded by

h20240104

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views7 pages

Energy-Efficient Robot Trajectory Optimization

Uploaded by

h20240104

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 7

Actor Critic Methods

 The actor-critic method is a reinforcement learning approach that combines

two components: The actor, which decides the actions to take (policy), and
the critic, which evaluates the actions taken by estimating the value
function. The actor updates the policy based on feedback from the critic,
creating a balance between exploration and optimization.

Deep deterministic policy gradient (DDPG)

Deep Deterministic Policy Gradient (DDPG) is an algorithm is a reinforcement

learning algorithm that combines ideas from Q-Learning (estimating the value of
actions) and Policy Gradients (directly optimizing actions) to learn both the best
actions and their value simultaneously.

BITS Pilani, Pilani Campus

Energy-Efficient Trajectory Planning

 Energy-efficient trajectory planning is possible using the Deep Deterministic Policy

Gradient (DDPG) algorithm for training. It involves parallel training by dividing
the robot's dynamic model into submodules, facilitating faster training while
obtaining high accuracy.
 This achieves significant energy savings (23.21%) reduction compared to default
(trajectories) by eliminating the heavy computations involved in traditional
nonlinear methods.
 The main advantage of this method is it achieves real-time trajectory generation,
contrasting with slower traditional optimization techniques like genetic algorithms
or dynamic programming.

BITS Pilani, Pilani Campus

Proximal Policy Optimization (PPO)
 Proximal Policy Optimization (PPO) is a reinforcement learning algorithm
designed to optimize policies efficiently and reliably by improving upon Trust
Region Policy Optimization (TRPO).
 PPO uses a clipped objective function to limit the size of policy updates, ensuring
they stay within a safe range without requiring the computational complexity of
TRPO's trust region constraints.

Robotic arm trajectory tracking method based on improved proximal policy

optimization

• To study the trajectory tracking method for robotic arms, the traditional tracking
method has low accuracy and cannot realize the complex tracking tasks.
• Compared with traditional methods, deep reinforcement learning is an effective
scheme with the advantages of robustness and solving complex problems.

BITS Pilani, Pilani Campus

Conti..
• If the step size is too large, the result is jittery and does not converge. The PPO
algorithm uses the ratio of new and old strategies, which can solve the problem that
the learning rate is difficult to determine in the PG algorithm. To improve the
robustness of the tracking algorithm, the PPO algorithm is improved based on the
stable policy gradient.

(a) (b)
• The solid blue line in Fig (a) is the expected trajectory of the robotic arm. The red
solid line in Fig (b) shows the actual trajectory of the robotic arm.
• The simulation results show that the Improved-PPO algorithm outperforms the A3C
and PPO algorithms for robotic arm trajectory tracking.

BITS Pilani, Pilani Campus

Trust region policy Optimization

 Trust Region Policy Optimization (TRPO) is a reinforcement learning algorithm

that optimizes policies by constraining the step size during updates to ensure stable
and reliable learning. It uses a trust region constraint to prevent the policy from
changing too drastically, maintaining a balance between exploration and
exploitation.
 Using TRPO, industrial robots can improve their decision-making in complex
scenarios, such as assembly or material handling, while ensuring performance
consistency and energy efficiency.

Complex Robot Manipulation Tasks Based On Hindsight Trust Region Policy Optimization
• In this experimentation, the manipulator is put into four challenging sparse-reward
environments, which include two types of tasks. One is the reaching task with
obstacles, and the other consists of three dynamic object tasks. Both types of tasks
are goal-conditioned, which means the robot will have a goal observation at every
time step.

BITS Pilani, Pilani Campus

• The results show that HTRPO (Hindsight Trust Region Policy Optimization) when
compared with HPG and TRPO achieves higher success rate and stability on most
of the tasks.

BITS Pilani, Pilani Campus

Thank You

BITS Pilani, Pilani Campus

ACPPO
No ratings yet
ACPPO
8 pages
TRPO in Robotics: A Case Study
No ratings yet
TRPO in Robotics: A Case Study
2 pages
Deep Policy Gradients: PPO vs TRPO Analysis
No ratings yet
Deep Policy Gradients: PPO vs TRPO Analysis
14 pages
Quasi Newton Trpo
No ratings yet
Quasi Newton Trpo
10 pages
Sensors 23 05974
No ratings yet
Sensors 23 05974
15 pages
Proximal Policy Optimization: RL For Efficient High Dimensional Control by Luke Ditria In/lukeditria
No ratings yet
Proximal Policy Optimization: RL For Efficient High Dimensional Control by Luke Ditria In/lukeditria
15 pages
Model Ensemble Trpo
No ratings yet
Model Ensemble Trpo
15 pages
Stable Baseline3
No ratings yet
Stable Baseline3
11 pages
Abdolmaleki Et Al. - 2018 - Maximum A Posteriori Policy Optimisation
No ratings yet
Abdolmaleki Et Al. - 2018 - Maximum A Posteriori Policy Optimisation
23 pages
Zhang 2022 J. Phys. Conf. Ser. 2203 012065
No ratings yet
Zhang 2022 J. Phys. Conf. Ser. 2203 012065
7 pages
RLC Project
No ratings yet
RLC Project
13 pages
Home Work SAC PPO and DDPG Reinforcement Learning
No ratings yet
Home Work SAC PPO and DDPG Reinforcement Learning
10 pages
Multi-Agent Proximal Policy Optimization Via Non-Fixed Value Clipping
No ratings yet
Multi-Agent Proximal Policy Optimization Via Non-Fixed Value Clipping
5 pages
Particle Swarm Optimization With Area Extension (AEPSO) : A Macroscopic Model of PSO in Robotic Swarm
No ratings yet
Particle Swarm Optimization With Area Extension (AEPSO) : A Macroscopic Model of PSO in Robotic Swarm
50 pages
Article 5
No ratings yet
Article 5
19 pages
Thesis Slides
No ratings yet
Thesis Slides
44 pages
PPO Final Hopeso
No ratings yet
PPO Final Hopeso
14 pages
5 Policy 1
No ratings yet
5 Policy 1
51 pages
Path and Trajectory Planning
No ratings yet
Path and Trajectory Planning
96 pages
SA031PL
No ratings yet
SA031PL
7 pages
Master Thesis
No ratings yet
Master Thesis
77 pages
PB Ppo
No ratings yet
PB Ppo
11 pages
Efficient Multitask RL with ISBPO
No ratings yet
Efficient Multitask RL with ISBPO
1 page
Trust Region Policy Optimization: John Schulman Sergey Levine Philipp Moritz Michael Jordan Pieter Abbeel
No ratings yet
Trust Region Policy Optimization: John Schulman Sergey Levine Philipp Moritz Michael Jordan Pieter Abbeel
16 pages
Multi-Agent Deep Reinforcement Learning For Persistent Monitoring With Sensing Communication and Localization Constraints
No ratings yet
Multi-Agent Deep Reinforcement Learning For Persistent Monitoring With Sensing Communication and Localization Constraints
13 pages
4001 Where To Go Next Learning A Subgoal Recommendation Policy For Navigation Among Pedestrians
No ratings yet
4001 Where To Go Next Learning A Subgoal Recommendation Policy For Navigation Among Pedestrians
8 pages
Developing Path Planning With Behavioral Cloning and Proximal Policy Optimization For Path-Tracking and Static Obstacle Nudging
No ratings yet
Developing Path Planning With Behavioral Cloning and Proximal Policy Optimization For Path-Tracking and Static Obstacle Nudging
6 pages
Reinforcement Learning Based Quadcopter Controller
No ratings yet
Reinforcement Learning Based Quadcopter Controller
7 pages
Multi-Stage Path Planning Strategy For Intelligent Cleaning Robot
No ratings yet
Multi-Stage Path Planning Strategy For Intelligent Cleaning Robot
9 pages
Reinforcement Learning for Experts
No ratings yet
Reinforcement Learning for Experts
13 pages
RLC Project Report
No ratings yet
RLC Project Report
2 pages
Robot Time Optimal Trajectory Planning Based On Improved Simplified Particle Swarm Optimization Algorithm
100% (1)
Robot Time Optimal Trajectory Planning Based On Improved Simplified Particle Swarm Optimization Algorithm
13 pages
CS 234: Assignment #2: 1 Deep - Networks (DQN) (8 Pts Writeup)
No ratings yet
CS 234: Assignment #2: 1 Deep - Networks (DQN) (8 Pts Writeup)
9 pages
HAMDPO算法
No ratings yet
HAMDPO算法
15 pages
Robust RL Project Intro
No ratings yet
Robust RL Project Intro
5 pages
Iclr-Blog-Track-Gi
No ratings yet
Iclr-Blog-Track-Gi
29 pages
483 Learning To Optimize
No ratings yet
483 Learning To Optimize
13 pages
05358824
No ratings yet
05358824
6 pages
Inspired From The Nature Social Behavior and Dynamic Movements With Communications of Insects, Birds and Fish
No ratings yet
Inspired From The Nature Social Behavior and Dynamic Movements With Communications of Insects, Birds and Fish
26 pages
tmp5056 TMP
No ratings yet
tmp5056 TMP
6 pages
Final MSC Report Divyam Rastogi
No ratings yet
Final MSC Report Divyam Rastogi
78 pages
Robotics 12 00012 v2
No ratings yet
Robotics 12 00012 v2
19 pages
Sahil Khaja Huzoor AMS 517 Report
No ratings yet
Sahil Khaja Huzoor AMS 517 Report
11 pages
Final Report RL
No ratings yet
Final Report RL
5 pages
Reinforcement Learning Optimization
No ratings yet
Reinforcement Learning Optimization
6 pages
Title of Your RL Project
No ratings yet
Title of Your RL Project
1 page
Imitation Learning in Robotics
No ratings yet
Imitation Learning in Robotics
70 pages
Robotic Action CTRL Seminar Report
No ratings yet
Robotic Action CTRL Seminar Report
27 pages
Personal Best Position Particle Swarm Optimization: Narinder SINGH, S.B. Singh
No ratings yet
Personal Best Position Particle Swarm Optimization: Narinder SINGH, S.B. Singh
8 pages
A2C: A Special Case of PPO
No ratings yet
A2C: A Special Case of PPO
4 pages
HW4 Questions
No ratings yet
HW4 Questions
11 pages
Auv RL
No ratings yet
Auv RL
11 pages
Review of Applications of TLBO Algorithm and A Tutorial For Beginners To Solve The Unconstrained and Constrained Optimization Problems
No ratings yet
Review of Applications of TLBO Algorithm and A Tutorial For Beginners To Solve The Unconstrained and Constrained Optimization Problems
31 pages
UGV Navigation Optimization Aided by Reinforcement Learning-Based Path Tracking
No ratings yet
UGV Navigation Optimization Aided by Reinforcement Learning-Based Path Tracking
12 pages
Path Planing and Tracking For Multi-Robot System Based On Improved PSO Algorithm
No ratings yet
Path Planing and Tracking For Multi-Robot System Based On Improved PSO Algorithm
4 pages
Case Study - Career Planning
100% (1)
Case Study - Career Planning
5 pages
ASSESSMENT1 - Quiz - Shift of Educational Focus From Content To Learning Outcomes
No ratings yet
ASSESSMENT1 - Quiz - Shift of Educational Focus From Content To Learning Outcomes
4 pages
DAT Unified Template Report
No ratings yet
DAT Unified Template Report
2 pages
CV Muhammad Islaqudin ATS Fix
No ratings yet
CV Muhammad Islaqudin ATS Fix
2 pages
Erf Annex A Form
No ratings yet
Erf Annex A Form
1 page
VeriFinger SDK: Biometric Fingerprint ID
No ratings yet
VeriFinger SDK: Biometric Fingerprint ID
11 pages
Table of Contents
No ratings yet
Table of Contents
11 pages
Improving US School Lunch Guidelines
No ratings yet
Improving US School Lunch Guidelines
10 pages
EST Exams Date Sheet - MBA Batch 2024-26
No ratings yet
EST Exams Date Sheet - MBA Batch 2024-26
3 pages
Rubric For Gymnastics
No ratings yet
Rubric For Gymnastics
2 pages
18 Behaviors of Emotionally Intelligent People
No ratings yet
18 Behaviors of Emotionally Intelligent People
3 pages
50.english For Academic Purpose N
No ratings yet
50.english For Academic Purpose N
7 pages
SA 2 Grade 5
No ratings yet
SA 2 Grade 5
3 pages
A Critical Study On The Importance of School Volunteering and Social Work To Increase Academic Success
No ratings yet
A Critical Study On The Importance of School Volunteering and Social Work To Increase Academic Success
6 pages
Inventions That Changed The World Grade 1
No ratings yet
Inventions That Changed The World Grade 1
9 pages
Case Study Alcordo Briones Pabillaran
No ratings yet
Case Study Alcordo Briones Pabillaran
18 pages
3D Geometry Jee Brief
No ratings yet
3D Geometry Jee Brief
119 pages
Adolescent Social Insights
No ratings yet
Adolescent Social Insights
9 pages
Farhan Habib (Team Lead-Supervisor) CV
No ratings yet
Farhan Habib (Team Lead-Supervisor) CV
2 pages
Summative English Exam - Unit 10 - Open Mind 2
No ratings yet
Summative English Exam - Unit 10 - Open Mind 2
4 pages
LESSONPLAN
No ratings yet
LESSONPLAN
5 pages
English Express - Adult Beginners 4 - Week 3
No ratings yet
English Express - Adult Beginners 4 - Week 3
1 page
Business & IT Training Solutions
No ratings yet
Business & IT Training Solutions
5 pages
Kumpulan Soal Up 2022. Newdocx-1
No ratings yet
Kumpulan Soal Up 2022. Newdocx-1
13 pages
Interview Questions
No ratings yet
Interview Questions
52 pages
I Am Human… I Breathe, I Dream, I Create - A Poetic Prelude to SoPh[A]iloTechnoLogy [EN] ≡ [RO] Sunt om… Inspir, visez, creez - Un preludiu poetic al SoPh[A]iloTechnoLogy Written by Virgil Profeanu Bucharest, 2025 ISBN: 978-969-8392-07-9 DOI: 10.5281/zenodo.15588552 All rights reserved. This book is published as part of the SoPh[A]iloTechnoLogy Codex Series.
No ratings yet
I Am Human… I Breathe, I Dream, I Create - A Poetic Prelude to SoPh[A]iloTechnoLogy [EN] ≡ [RO] Sunt om… Inspir, visez, creez - Un preludiu poetic al SoPh[A]iloTechnoLogy Written by Virgil Profeanu Bucharest, 2025 ISBN: 978-969-8392-07-9 DOI: 10.5281/zenodo.15588552 All rights reserved. This book is published as part of the SoPh[A]iloTechnoLogy Codex Series.
216 pages
Multi Letter Phonograms
No ratings yet
Multi Letter Phonograms
4 pages
Module Readings in Philippine History
No ratings yet
Module Readings in Philippine History
106 pages
Therapeutic Approaches
No ratings yet
Therapeutic Approaches
5 pages
Assignment 2
No ratings yet
Assignment 2
8 pages