DarriusL
diff --git a/‎README.md
Lines changed: 1 addition & 1 deletion b/‎README.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎agent/algorithm/actor_critic.py
Lines changed: 1 addition & 1 deletion b/‎agent/algorithm/actor_critic.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎agent/algorithm/dqn.py
Lines changed: 1 addition & 1 deletion b/‎agent/algorithm/dqn.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎agent/algorithm/ppo.py
Lines changed: 15 additions & 0 deletions b/‎agent/algorithm/ppo.py
Lines changed: 15 additions & 0 deletions
diff --git a/‎agent/algorithm/reinforce.py
Lines changed: 1 addition & 0 deletions b/‎agent/algorithm/reinforce.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎agent/memory/onpolicy.py
Lines changed: 13 additions & 2 deletions b/‎agent/memory/onpolicy.py
Lines changed: 13 additions & 2 deletions
diff --git a/‎agent/net/net_util.py
Lines changed: 5 additions & 5 deletions b/‎agent/net/net_util.py
Lines changed: 5 additions & 5 deletions
diff --git a/‎config/a2c/a2c_shared_mc_cartpole_mc.json
Lines changed: 57 additions & 0 deletions b/‎config/a2c/a2c_shared_mc_cartpole_mc.json
Lines changed: 57 additions & 0 deletions
diff --git a/‎config/a2c/a2c_shared_nstep_cartpole_onbatch.json
Lines changed: 1 addition & 0 deletions b/‎config/a2c/a2c_shared_nstep_cartpole_onbatch.json
Lines changed: 1 addition & 0 deletions
diff --git a/‎config/a2c/a2c_unshared_gae_cartpole_onbatch.json
Lines changed: 1 addition & 0 deletions b/‎config/a2c/a2c_unshared_gae_cartpole_onbatch.json
Lines changed: 1 addition & 0 deletions
@@ -136,8 +136,8 @@ a2c
 
 ```shell
 python executor.py -cfg='./config/a2c/a2c_shared_nstep_cartpole_onbatch.json' --mode='train'
+python executor.py -cfg='./config/a2c/a2c_shared_mc_cartpole_mc.json' --mode='train'
 python executor.py -cfg='./config/a2c/a2c_unshared_gae_cartpole_onbatch.json' --mode='train'
 python executor.py -cfg='./cache/data/a2c/cartpole/[-opt-]/config.json' --mode='test'
-
 ```
 
@@ -19,7 +19,7 @@ def __init__(self, algorithm_cfg) -> None:
         glb_var.get_value('var_reporter').add('Value loss coefficient', self.value_loss_var);
 
         #cal advs method
-        if self.n_step_returns is not None and self.lbd is not None:
+        if self.n_step_returns is None and self.lbd is None:
             self._cal_advs_and_v_tgts = self._cal_mc_advs_and_v_tgts;
         elif self.n_step_returns is not None and self.lbd is None:
             #use n-step
 
@@ -96,7 +96,7 @@ def init_net(self, net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epo
         super().init_net(net_cfg, optim_cfg, lr_schedule_cfg, in_dim, out_dim, max_epoch);
         self.q_target_net = get_net(net_cfg, in_dim, 
9E88
out_dim, device = glb_var.get_value('device'));
         #Initialize q_target_net with q_net
-        self.net_updater.net_param_copy(self.q_net, self.q_target_net);
+        net_util.net_param_copy(self.q_net, self.q_target_net)
         self.net_updater.set_net(self.q_net, self.q_target_net);
         self.q_eval_net = self.q_target_net;
 
 
@@ -0,0 +1,15 @@
+# @Time   : 2023.06.06
+# @Author : Darrius Lei
+# @Email  : darrius.lei@outlook.com
+from agent.algorithm import reinforce
+from agent import alg_util
+from lib import glb_var
+
+logger = glb_var.get_value('log')
+
+class Reinforce(reinforce.Reinforce):
+    def __init__(self, algorithm_cfg) -> None:
+        super().__init__(algorithm_cfg);
+        self.clip_var_var_shedule = alg_util.VarScheduler(algorithm_cfg['clip_var_cfg']);
+        self.clip_var = self.clip_var_var_shedule.var_start;
+        glb_var.get_value('var_reporter').add('Clip coefficient', self.clip_var)
@@ -27,6 +27,7 @@ def __init__(self, algorithm_cfg) -> None:
         if algorithm_cfg['entropy_reg_var_cfg'] is not None:
             self.entorpy_reg_var_shedule = alg_util.VarScheduler(algorithm_cfg['entropy_reg_var_cfg']);
             self.entorpy_reg_var = self.entorpy_reg_var_shedule.var_start;
+            glb_var.get_value('var_reporter').add('Entropy regularization coefficient', self.entorpy_reg_var)
         else:
             self.entorpy_reg_var_shedule = None;
 
 
@@ -24,8 +24,15 @@ def __init__(self, memory_cfg) -> None:
         self.is_episodic_exp = True;
         #Experience data that needs to be stored
         self.exp_keys = ['states', 'actions', 'rewards', 'next_states', 'dones'];
+        #multiple expolre
+        self.explore_times = 1;
+        self.explore_cnt = 0;
         self.reset();
 
+    def multiple_explore(self, times):
+        ''''''
+        self.explore_times = times;
+    
     def train(self):
         pass
 
@@ -40,6 +47,7 @@ def reset(self):
         self.exp_latest = [None] * len(self.exp_keys);
         self.cur_exp = {k: [] for k in self.exp_keys};
         self.stock = 0;
+        self.explore_cnt = 0;
 
     def update(self, state, action, reward, next_state, done):
         '''Add experience to experience memory
@@ -51,8 +59,11 @@ def update(self, state, action, reward, next_state, done):
 
         self.stock += 1;
         if done:
-            for key in self.exp_keys:
-                getattr(self, key).append(self.cur_exp[key]);
+            self.explore_cnt += 1;
+            if self.explore_cnt >= self.explore_times:
+                self.explore_cnt = 0;
+                for key in self.exp_keys:
+                    getattr(self, key).append(self.cur_exp[key]);
 
     def _batch_to_tensor(self, batch):
         '''Convert a batch to a format for torch training
 
@@ -115,14 +115,18 @@ def get_mlpnet(hid_layers, activation_fn, in_dim, out_dim):
         ]
     return torch.nn.Sequential(*layers);
 
+def net_param_copy(src, tgt):
+    '''Copy network parameters from src to tgt'''
+    tgt.load_state_dict(src.state_dict());
+
 class NetUpdater():
     '''for updating the network'''
     def __init__(self, net_update_cfg) -> None:
         util.set_attr(self, net_update_cfg, except_type = dict);
         self.epoch = 0;
         #generate net update policy
         if self.name.lower() == 'replace':
-            self.updater = self.net_param_copy;
+            self.updater = net_param_copy;
         elif self.name.lower() == 'polyak':
             self.updater = self.net_param_polyak_update;
         else:
@@ -134,10 +138,6 @@ def set_net(self, src, tgt):
         self.src_net = src;
         self.tgt_net = tgt;
 
-    def net_param_copy(self, src, tgt):
-        '''Copy network parameters from src to tgt'''
-        tgt.load_state_dict(src.state_dict());
-
     def net_param_polyak_update(self, src, tgt):
         '''Polyak updata policy
         
 
@@ -0,0 +1,57 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"A2C",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":false,
+            "policy_loss_var":1,
+            "value_loss_var":0.6,
+            "entropy_reg_var_cfg":{
+                "name":"fixed",
+                "var_start":0.01,
+                "var_end":0.01,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "n_step_returns":null,
+            "lbd":null
+        },
+        "net_cfg":{
+            "name":"SharedMLPNet",
+            "body_hid_layers":[32],
+            "body_out_dim":16,
+            "hid_layers_activation":"Selu",
+            "output_hid_layers":[16]
+        },
+        "optimizer_cfg":{
+            "name":"adam",
+            "lr":1e-3,
+            "weight_decay": 1e-08,
+            "betas": [
+                0.9,
+                0.999
+            ]
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicy"
+        },
+        "max_epoch":10000,
+        "explore_times_per_train":1,
+        "batch_learn_times_per_train":4
+    },
+    "env":{
+        "name":"CartPole",
+        "solved_total_reward":99900,
+        "finish_total_reward":100000,
+        "survival_T":100000
+    },
+    "model_path":null,
+    "valid":{
+        "valid_step":100,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -38,6 +38,7 @@
             "name":"OnPolicyBatch"
         },
         "max_epoch":10000,
+        "explore_times_per_train":1,
         "train_exp_size":64,
         "batch_learn_times_per_train":4
     },
 
@@ -54,6 +54,7 @@
             "name":"OnPolicyBatch"
         },
         "max_epoch":10000,
+        "explore_times_per_train":1,
         "train_exp_size":64,
         "batch_learn_times_per_train":4
     },