pytorch-trpo

PyTorch implementation of Vanilla Policy Gradient, Truncated Natural Policy Gradient, Trust Region Policy Optimization, Proximal Policy Optimization

Train

algorithm: PG, NPG, TRPO, PPO
env: Ant-v2, HalfCheetah-v2, Hopper-v2, Humanoid-v2, HumanoidStandup-v2, InvertedPendulum-v2, Reacher-v2, Swimmer-v2, Walker2d-v2

python train.py --algorithm "algorithm name" --env "environment name"

This code is modified version of codes

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
LICENSE		LICENSE
README.md		README.md
hparams.py		hparams.py
main.py		main.py
model.py		model.py
npg.py		npg.py
ppo.py		ppo.py
running_state.py		running_state.py
test_env.py		test_env.py
trpo.py		trpo.py
utils.py		utils.py
vanila_pg.py		vanila_pg.py