DarriusL
diff --git a/‎README.md
Lines changed: 15 additions & 5 deletions b/‎README.md
Lines changed: 15 additions & 5 deletions
diff --git a/‎agent/algorithm/__init__.py
Lines changed: 2 additions & 0 deletions b/‎agent/algorithm/__init__.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎agent/algorithm/actor_critic.py
Lines changed: 7 additions & 7 deletions b/‎agent/algorithm/actor_critic.py
Lines changed: 7 additions & 7 deletions
diff --git a/‎agent/algorithm/ppo.py
Lines changed: 21 additions & 13 deletions b/‎agent/algorithm/ppo.py
Lines changed: 21 additions & 13 deletions
diff --git a/‎config/ppo/a2c_ppo_shared_gae_cartpole_onbatch.json
Lines changed: 66 additions & 0 deletions b/‎config/ppo/a2c_ppo_shared_gae_cartpole_onbatch.json
Lines changed: 66 additions & 0 deletions
diff --git a/‎config/ppo/a2c_ppo_unshared_gae_cartpole_onbatch.json
Lines changed: 82 additions & 0 deletions b/‎config/ppo/a2c_ppo_unshared_gae_cartpole_onbatch.json
Lines changed: 82 additions & 0 deletions
diff --git a/‎config/ppo/reinforce_ppo_cartpole_mc.json
Lines changed: 1 addition & 1 deletion b/‎config/ppo/reinforce_ppo_cartpole_mc.json
Lines changed: 1 addition & 1 deletion
diff --git a/‎env/openai_gym.py
Lines changed: 2 additions & 1 deletion b/‎env/openai_gym.py
Lines changed: 2 additions & 1 deletion
@@ -104,7 +104,8 @@ options:
 
 ### qiuck start
 
-reinforce
+- reinforce
+
 
 ```shell
 python executor.py -cfg='./config/reinforce/reinforce_cartpole_mc.json' --mode='train'
@@ -113,15 +114,17 @@ python executor.py -cfg='./config/reinforce/reinforce_entropyreg_cartpole_onbatc
 python executor.py -cfg='./cache/data/reinforce/cartpole/[-opt-]/config.json' --mode='test'
 ```
 
-sarsa
+- sarsa
+
 
 ```shell
 python executor.py -cfg='./config/sarsa/sarsa_cartpole_onbatch.json' --mode='train'
 python executor.py -cfg='./config/sarsa/sarsa_cartpole_mc.json' --mode='train'
 python executor.py -cfg='./cache/data/sarsa/cartpole/[-opt-]/config.json' --mode='test'
 ```
 
-dqn
+- dqn
+
 
 ```shell
 python executor.py -cfg='./config/dqn/dqn_cartpole_off.json' --mode='train'
@@ -130,7 +133,8 @@ python executor.py -cfg='./config/dqn/doubledqn_cartpole_off.json' --mode='train
 python executor.py -cfg='./config/dqn/doubledqn_cartpole_per.json' --mode='train'
 ```
 
-a2c
+- a2c
+
 
 ```shell
 python executor.py -cfg='./config/a2c/a2c_shared_nstep_cartpole_onbatch.json' --mode='train'
@@ -139,11 +143,17 @@ python executor.py -cfg='./config/a2c/a2c_unshared_gae_cartpole_onbatch.json' --
 python executor.py -cfg='./cache/data/a2c/cartpole/[-opt-]/config.json' --mode='test'
 ```
 
-ppo
+- ppo
+
+notes:A2C (PPO) using nstep calculation advantage may cause model parameters to be nan due to gradient disappearance or gradient explosion, so the model is limited to GAE calculation.
 
 ```shell
 python executor.py -cfg='./config/ppo/reinforce_ppo_cartpole_mc.json' --mode='train'
 python executor.py -cfg='./config/ppo/reinforce_ppo_cartpole_onbatch.json' --mode='train'
+
+python executor.py -cfg='./config/ppo/a2c_ppo_shared_gae_cartpole_onbatch.json' --mode='train'
+python executor.py -cfg='./config/ppo/a2c_ppo_unshared_gae_cartpole_onbatch.json' --mode='train'
+python executor.py -cfg='./cache/data/ppo_a2c/cartpole/[-opt-]/config.json' --mode='test'
 ```
 
 
 
@@ -30,6 +30,8 @@ def get_alg(alg_cfg):
             return ActorCritic(alg_cfg);
         elif alg_cfg['name'].lower() == 'ppo_reinforce':
             return ppo.Reinforce(alg_cfg);
+        elif alg_cfg['name'].lower() in ['ppo_a2c']:
+            return ppo.ActorCritic(alg_cfg);
         else:
             logger.error(f'Type of algorithm [{alg_cfg["name"]}] is not supported.\nPlease replace or add by yourself.')
             raise callback.CustomException('NetCfgTypeError');
@@ -105,8 +105,6 @@ def _cal_mc_advs_and_v_tgts(self, batch, v_preds):
         '''Estimate Q using Monte Carlo simulations and use this to calculate advantages
         '''
         #v_preds:[batch]
-        #advs and v_tgt don't need to accumulate grad
-        v_preds = v_preds.detach()
         #rets:[batch]
         #Mixed trajectory, cannot use [fast]
         rets = alg_util.cal_returns(batch['rewards'], batch['dones'], self.gamma, fast = False);
@@ -118,8 +116,6 @@ def _cal_mc_advs_and_v_tgts(self, batch, v_preds):
     def _cal_nstep_advs_and_v_tgts(self, batch, v_preds):
         '''Using temporal difference learning to estimate Q and then calculate the advantage'''
         #v_preds:[batch]
-        #advs and v_tgt don't need to accumulate grad
-        v_preds = v_preds.detach()
         with torch.no_grad():
             #is a value
             next_v_pred = self._cal_v(batch['states'][-1]);
@@ -132,8 +128,6 @@ def _cal_nstep_advs_and_v_tgts(self, batch, v_preds):
     def _cal_gae_advs_and_v_tgts(self, batch, v_preds):
         '''Calculate GAE and estimate v_tgt'''
         #v_preds:[batch]
-        #advs and v_tgt don't need to accumulate grad
-        v_preds = v_preds.detach()
         with torch.no_grad():
             #[1]
             next_v_pred = self._cal_v(batch['states'][-1].unsqueeze(0));
@@ -171,9 +165,15 @@ def update(self):
 
 
     def train_step(self, batch):
+        ''''''
+        with torch.no_grad():
+            v_preds = self._cal_v(batch['states']);
+            advs, v_tgts = self._cal_advs_and_v_tgts(batch, v_preds);
+        self._train_main(batch, advs, v_tgts);
+
+    def _train_main(self, batch, advs, v_tgts):
         ''''''
         v_preds = self._cal_v(batch['states']);
-        advs, v_tgts = self._cal_advs_and_v_tgts(batch, v_preds);
         policy_loss = self._cal_policy_loss(batch, advs);
         self._check_nan(policy_loss);
         value_loss = self._cal_value_loss(v_preds, v_tgts);
 
@@ -4,7 +4,7 @@
 from agent.algorithm import reinforce, alg_util, actor_critic
 from agent.net import *
 from agent.memory import *
-from lib import glb_var
+from lib import glb_var, callback
 import copy, torch
 
 logger = glb_var.get_value('log')
@@ -16,7 +16,7 @@ def __init__(self, algorithm_cfg) -> None:
         super().__init__(algorithm_cfg);
         self.clip_var_var_shedule = alg_util.VarScheduler(algorithm_cfg['clip_var_cfg']);
         self.clip_var = self.clip_var_var_shedule.var_start;
-        glb_var.get_value('var_reporter').add('Clip coefficient', self.clip_var);
+        glb_var.get_value('var_reporter').add('Policy gradient clipping coefficient', self.clip_var);
         self.batch_spliter = get_batch_split(self.batch_split_type);
 
     def init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epoch):
@@ -89,6 +89,14 @@ def _cal_loss(self, batch, rets):
         '''
         #[batch_size, out_dim]
         action_batch_logits = self._cal_action_pd(batch['states']);
+        # if torch.any(torch.isnan(action_batch_logits)):
+        #     print(action_batch_logits);
+        #     print(batch['states']);
+        #     if self.is_ac_shared:
+        #         torch.save(self.acnet, './cache/problem.model');
+        #     else:
+        #         torch.save(self.acnets[0], './cache/problem.model');
+        #     raise RuntimeError;
         action_pd_batch = torch.distributions.Categorical(logits = action_batch_logits);
         #[batch_size]
         log_probs = action_pd_batch.log_prob(batch['actions']);
@@ -125,21 +133,18 @@ def train_step(self, batch):
         '''Train network'''
         subbatches = self.batch_spliter(batch, self.batch_num, add_origin = True);
         for subbatch in subbatches:
-            rets = self._cal_rets(subbatch);
-            loss = self._cal_loss(subbatch, rets);
-            self.optimizer.zero_grad();
-            self._check_nan(loss);
-            loss.backward();
-            self.optimizer.step();
-            if hasattr(torch.cuda, 'empty_cache'):
-                torch.cuda.empty_cache();
-            logger.debug(f'Actor loss: [{loss.item()}]');
+            super().train_step(subbatch);
 
 class ActorCritic(Reinforce, actor_critic.ActorCritic):
     def __init__(self, algorithm_cfg) -> None:
         actor_critic.ActorCritic.__init__(self, algorithm_cfg);
         Reinforce.__init__(self, algorithm_cfg);
         self.is_onpolicy = True;
+        #notes:ppo use gae for calculate advs
+        self._cal_advs_and_v_tgts = self._cal_gae_advs_and_v_tgts;
+        if self.lbd is None:
+            logger.error(f'ActorCritic(PPO) use gae to calculate advantages, but no lambda value is set.');
+            raise callback.CustomException('CfgError');
 
     def init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epoch):
         actor_critic.ActorCritic.init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epoch);
@@ -197,9 +202,12 @@ def _cal_value_loss(self, v_preds, v_tgts):
         return actor_critic.ActorCritic._cal_value_loss(self, v_preds, v_tgts);
 
     def train_step(self, batch):
-        subbatches = self.batch_spliter(batch, self.batch_num, add_origin = True);
+        with torch.no_grad():
+            v_preds = self._cal_v(batch['states']);
+            batch['advs'], batch['v_tgt'] = self._cal_advs_and_v_tgts(batch, v_preds);
+        subbatches = self.batch_spliter(batch, self.batch_num, add_origin = False);
         for subbatch in subbatches:
-            actor_critic.ActorCritic.train_step(self, subbatch);
+            actor_critic.ActorCritic._train_main(self, subbatch, subbatch['advs'], subbatch['v_tgt']);
 
 
 
 
@@ -0,0 +1,66 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"PPO_A2C",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":false,
+            "policy_loss_var":1,
+            "value_loss_var":0.5,
+            "entropy_reg_var_cfg":{
+                "name":"fixed",
+                "var_start":0.01,
+                "var_end":0.01,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "clip_var_cfg":{
+                "name":"fixed",
+                "var_start":0.1,
+                "var_end":0.1,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "n_step_returns":null,
+            "lbd":0.95,
+            "batch_split_type":"random",
+            "batch_num":4
+        },
+        "net_cfg":{
+            "name":"SharedMLPNet",
+            "body_hid_layers":[32],
+            "body_out_dim":16,
+            "hid_layers_activation":"Selu",
+            "output_hid_layers":[16]
+        },
+        "optimizer_cfg":{
+            "name":"adam",
+            "lr":1e-3,
+            "weight_decay": 1e-08,
+            "betas": [
+                0.9,
+                0.999
+            ]
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicyBatch"
+        },
+        "max_epoch":10000,
+        "explore_times_per_train":4,
+        "train_exp_size":64,
+        "batch_learn_times_per_train":4
+    },
+    "env":{
+        "name":"CartPole",
+        "solved_total_reward":99900,
+        "finish_total_reward":100000,
+        "survival_T":100000
+    },
+    "model_path":null,
+    "valid":{
+        "valid_step":100,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -0,0 +1,82 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"A2C",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":false,
+            "policy_loss_var":1,
+            "value_loss_var":0.7,
+            "entropy_reg_var_cfg":{
+                "name":"fixed",
+                "var_start":0.01,
+                "var_end":0.01,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "clip_var_cfg":{
+                "name":"fixed",
+                "var_start":0.1,
+                "var_end":0.1,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "n_step_returns":null,
+            "lbd":0.95,
+            "batch_split_type":"random",
+            "batch_num":4
+        },
+        "net_cfg":{
+            "actor_net_cfg":{
+                "name":"MLPNet",
+                "hid_layers":[32],
+                "hid_layers_activation":"Selu"
+            },
+            "critic_net_cfg":{
+                "name":"MLPNet",
+                "hid_layers":[32],
+                "hid_layers_activation":"Selu"
+            }
+        },
+        "optimizer_cfg":{
+            "actor_optim_cfg":{
+                "name":"adam",
+                "lr":1e-3,
+                "weight_decay": 1e-08,
+                "betas": [
+                    0.9,
+                    0.999
+                ]
+            },
+            "critic_optim_cfg":{
+                "name":"adam",
+                "lr":1e-3,
+                "weight_decay": 1e-08,
+                "betas": [
+                    0.9,
+                    0.999
+                ]
+            }
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicyBatch"
+        },
+        "max_epoch":10000,
+        "explore_times_per_train":4,
+        "train_exp_size":64,
+        "batch_learn_times_per_train":4
+    },
+    "env":{
+        "name":"CartPole",
+        "solved_total_reward":99900,
+        "finish_total_reward":100000,
+        "survival_T":100000
+    },
+    "model_path":null,
+    "valid":{
+        "valid_step":100,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -54,7 +54,7 @@
     },
     "model_path":null,
     "valid":{
-        "valid_step":100,
+        "valid_step":10,
         "valid_times":5,
         "not_improve_finish_step":5
     }
 
@@ -87,7 +87,8 @@ def reset(self):
         '''Reset the env'''
         self.main_body.total_reward = 0;
         self.main_body.t = 0;
-        return self.main_body.env.reset();
+        state, _ = self.main_body.env.reset();
+        return state;
 
     def step(self, action):
         '''Change the env through the action'''
Original file line number	Diff line number	Diff line change
`@@ -54,7 +54,7 @@`
`54`	`54`	`},`
`55`	`55`	`"model_path":null,`
`56`	`56`	`"valid":{`
`57`		`- "valid_step":100,`
	`57`	`+ "valid_step":10,`
`58`	`58`	`"valid_times":5,`
`59`	`59`	`"not_improve_finish_step":5`
`60`	`60`	`}`