DarriusL
diff --git a/‎README.md
Lines changed: 6 additions & 0 deletions b/‎README.md
Lines changed: 6 additions & 0 deletions
diff --git a/‎agent/algorithm/actor_critic.py
Lines changed: 20 additions & 9 deletions b/‎agent/algorithm/actor_critic.py
Lines changed: 20 additions & 9 deletions
diff --git a/‎config/a3c/a3c_shared_nstep_cartpole_onbatch.json
Lines changed: 1 addition & 1 deletion b/‎config/a3c/a3c_shared_nstep_cartpole_onbatch.json
Lines changed: 1 addition & 1 deletion
diff --git a/‎config/a3c/a3c_unshared_gae_cartpole_onbatch.json
Lines changed: 75 additions & 0 deletions b/‎config/a3c/a3c_unshared_gae_cartpole_onbatch.json
Lines changed: 75 additions & 0 deletions
diff --git a/‎room/system/onpolicy.py
Lines changed: 24 additions & 15 deletions b/‎room/system/onpolicy.py
Lines changed: 24 additions & 15 deletions
@@ -156,6 +156,12 @@ python executor.py -cfg='./config/ppo/a2c_ppo_unshared_gae_cartpole_onbatch.json
 python executor.py -cfg='./cache/data/ppo_a2c/cartpole/[-opt-]/config.json' --mode='test'
 ```
 
+- a3c
+
+```shell
+python executor.py -cfg='./config/a3c/a3c_shared_nstep_cartpole_onbatch.json' --mode='train'
+```
+
 
 
 ## Refrence
 
@@ -70,6 +70,7 @@ def init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epo
                 optimizer = optimizer,
                 lr_schedule = lr_schedule
             ));
+            self.optim_net = acnet;
             glb_var.get_value('var_reporter').add('lr', self.optimizer.param_groups[0]["lr"]);
         else:
             util.set_attr(self, dict(
@@ -78,6 +79,7 @@ def init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epo
                 optimizers = optimizer,
                 lr_schedules = lr_schedule
             ));
+            self.optim_nets = acnet;
             glb_var.get_value('var_reporter').add('actor-lr', self.optimizers[0].param_groups[0]["lr"]);
             glb_var.get_value('var_reporter').add('critic-lr', self.optimizers[-1].param_groups[0]["lr"]);
 
@@ -123,7 +125,7 @@ def __set_shared_param(net, shared_net):
             if self.is_ac_shared:
                 __set_shared_param(self.acnet, self.shared_net);
             else:
-                for net, shared_net in zip(self.acnet, self.shared_nets):
+                for net, shared_net in zip(self.acnets, self.shared_nets):
                     __set_shared_param(net, shared_net);
         else:
             pass;
@@ -221,6 +223,21 @@ def train_step(self, batch):
             v_preds = self._cal_v(batch['states']);
             advs, v_tgts = self._cal_advs_and_v_tgts(batch, v_preds);
         self._train_main(batch, advs, v_tgts);
+    
+    def _optim_net(self, loss, net, optimizer = None):
+        ''''''
+        def __optim(loss, net, optimizer):
+            loss.backward();
+            torch.nn.utils.clip_grad_norm_(net.parameters(), max_norm = 0.5);
+            self._set_shared_grads();
+            optimizer.step();
+        if optimizer is None:
+            optimizer = self.optimizer;
+        if not self.is_asyn:
+            __optim(loss, net, optimizer);
+        else:
+            with glb_var.get_value('lock'):
+                __optim(loss, net, optimizer);
 
     def _train_main(self, batch, advs, v_tgts):
         ''''''
@@ -232,17 +249,11 @@ def _train_main(self, batch, advs, v_tgts):
         if self.is_ac_share
6D40
d:
             loss = policy_loss + value_loss;
             self.optimizer.zero_grad();
-            loss.backward();
-            torch.nn.utils.clip_grad_norm_(self.acnet.parameters(), max_norm = 0.5);
-            self._set_shared_grads();
-            self.optimizer.step();
+            self._optim_net(loss, self.acnet, self.optimizer);
         else:
             for net, optimzer, loss in zip(self.acnets, self.optimizers, [policy_loss, value_loss]):
                 optimzer.zero_grad();
-                loss.backward();
-                torch.nn.utils.clip_grad_norm_(net.parameters(), max_norm = 0.5);
-                self._set_shared_grads();
-                optimzer.step();
+                self._optim_net(loss, net, optimzer);
             loss = policy_loss + value_loss;
         logger.debug(f'ActorCritic Total loss:{loss.item()}');
         if hasattr(torch.cuda, 'empty_cache'):
 
@@ -14,7 +14,7 @@
                 "star_epoch":0,
                 "end_epoch":0
             },
-            "n_step_returns":64,
+            "n_step_returns":32,
             "lbd":null
         },
         "net_cfg":{
 
@@ -0,0 +1,75 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"A3C",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":false,
+            "policy_loss_var":1,
+            "value_loss_var":0.7,
+            "entropy_reg_var_cfg":{
+                "name":"fixed",
+                "var_start":0.01,
+                "var_end":0.01,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "n_step_returns":null,
+            "lbd":0.95
+        },
+        "net_cfg":{
+            "actor_net_cfg":{
+                "name":"MLPNet",
+                "hid_layers":[32],
+                "hid_layers_activation":"Selu"
+            },
+            "critic_net_cfg":{
+                "name":"MLPNet",
+                "hid_layers":[32],
+                "hid_layers_activation":"Selu"
+            }
+        },
+        "optimizer_cfg":{
+            "actor_optim_cfg":{
+                "name":"adam",
+                "lr":1e-3,
+                "weight_decay": 1e-08,
+                "betas": [
+                    0.9,
+                    0.999
+                ]
+            },
+            "critic_optim_cfg":{
+                "name":"adam",
+                "lr":1e-3,
+                "weight_decay": 1e-08,
+                "betas": [
+                    0.9,
+                    0.999
+                ]
+            }
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicyBatch"
+        },
+        "max_epoch":10000,
+        "explore_times_per_train":1,
+        "train_exp_size":64,
+        "batch_learn_times_per_train":4,
+        "asyn_num":3
+    },
+    "env":{
+        "name":"CartPole",
+        "solved_total_reward":99900,
+        "finish_total_reward":100000,
+        "survival_T":100000
+    },
+    "model_path":null,
+    "is_gpu_available":false,
+    "valid":{
+        "valid_step":100,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -195,7 +195,7 @@ def init_sys(self, rank, shared_alg, optimzer):
         );
         self.agent.algorithm.set_shared_net(shared_alg);
 
-    def train(self, lock, stop_event, cnt, rank, shared_alg, optimzer):
+    def train(self, lock, stop_event, cnt, end_cnt, rank, shared_alg, optimzer):
         ''''''
         self.init_sys(rank, shared_alg, optimzer);
         for epoch in range(self.agent.max_epoch):
@@ -213,9 +213,11 @@ def train(self, lock, stop_event, cnt, rank, shared_alg, optimzer):
             self.agent.algorithm.update();
             with lock:
                 cnt.value += 1;
-        logger.info(f'Process {self.rank} end.')
+        logger.info(f'Process {self.rank} end.');
+        with lock:
+            end_cnt.value += 1;
 
-    def valid(self, lock, stop_event, cnt, rank, shared_alg, optimzer):
+    def valid(self, lock, stop_event, cnt, end_cnt, rank, shared_alg, optimzer):
         ''''''
         self.init_sys(rank, shared_alg, optimzer)
         while True:
@@ -227,17 +229,22 @@ def valid(self, lock, stop_event, cnt, rank, shared_alg, optimzer):
                 if self._valid_epoch(cnt_value):
                     stop_event.set();
                     break;
+                if end_cnt == self.rank:
+                    break;
                 time.sleep(60);
-        #plot rets
-        util.single_plot(
-            np.arange(len(self.rets_mean_valid)) + 1,
-            self.rets_mean_valid,
-            'valid_times', 'mean_rets', self.save_path + '/mean_rets.png');
-        #plot total rewards
-        util.single_plot(
-            np.arange(len(self.total_rewards_valid)) + 1,
-            self.total_rewards_valid,
-            'valid_times', 'rewards', self.save_path + '/rewards.png');
+        logger.info(f'Saved Model Information:\nSolved: [{self.best_solved}] - Mean total rewards: [{self.max_total_rewards}]'
+                    f'\nSaved path:{self.save_path}');
+        if end_cnt != self.rank:
+            #plot rets
+            util.single_plot(
+                np.arange(len(self.rets_mean_valid)) + 1,
+                self.rets_mean_valid,
+                'valid_times', 'mean_rets', self.save_path + '/mean_rets.png');
+            #plot total rewards
+            util.single_plot(
+                np.arange(len(self.total_rewards_valid)) + 1,
+                self.total_rewards_valid,
+                'valid_times', 'rewards', self.save_path + '/rewards.png');
 
 
 class OnPolicyAsynSystem(OnPolicySystem):
@@ -257,19 +264,21 @@ def train(self):
         subvalidsystem = copy.deepcopy(subtrainsystems[-1]);
         del subtrainsystems[-1];
         cnt = torch.multiprocessing.Value('i', 0);
+        end_cnt = torch.multiprocessing.Value('i', 0);
         lock = torch.multiprocessing.Lock();
+        glb_var.set_value('lock', lock);
         stop_event = torch.multiprocessing.Event();
         processes = [];
         for rank, sys in enumerate(subtrainsystems):
             p = torch.multiprocessing.Process(
                 target = sys.train, 
-                args = (lock, stop_event, cnt, rank, self.agent.algorithm, optimizer)
+                args = (lock, stop_event, cnt, end_cnt, rank, self.agent.algorithm, optimizer)
                 );
             p.start();
             processes.append(p);
         p_valid = torch.multiprocessing.Process(
             target = subvalidsystem.valid, 
-            args = (lock, stop_event, cnt, rank + 1, self.agent.algorithm, optimizer)
+            args = (lock, stop_event, cnt, end_cnt, rank + 1, self.agent.algorithm, optimizer)
             );
         p_valid.start();
         processes.append(p_valid);