DarriusL
diff --git a/‎README.md
Lines changed: 6 additions & 0 deletions b/‎README.md
Lines changed: 6 additions & 0 deletions
diff --git a/‎agent/algorithm/actor_critic.py
Lines changed: 2 additions & 0 deletions b/‎agent/algorithm/actor_critic.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎agent/net/conv.py
Lines changed: 12 additions & 0 deletions b/‎agent/net/conv.py
Lines changed: 12 additions & 0 deletions
diff --git a/‎agent/net/mlp.py
Lines changed: 3 additions & 3 deletions b/‎agent/net/mlp.py
Lines changed: 3 additions & 3 deletions
diff --git a/‎agent/net/net_util.py
Lines changed: 24 additions & 1 deletion b/‎agent/net/net_util.py
Lines changed: 24 additions & 1 deletion
diff --git a/‎config/a2c/a2c_shared_nstep_mountaincar_onbatch.json
Lines changed: 58 additions & 0 deletions b/‎config/a2c/a2c_shared_nstep_mountaincar_onbatch.json
Lines changed: 58 additions & 0 deletions
diff --git a/‎config/reinforce/reinforce_mountaincar_mc.json
Lines changed: 47 additions & 0 deletions b/‎config/reinforce/reinforce_mountaincar_mc.json
Lines changed: 47 additions & 0 deletions
@@ -112,6 +112,8 @@ python executor.py -cfg='./config/reinforce/reinforce_cartpole_mc.json' --mode='
 python executor.py -cfg='./config/reinforce/reinforce_entropyreg_cartpole_mc.json' --mode='train'
 python executor.py -cfg='./config/reinforce/reinforce_entropyreg_cartpole_onbatch.json' --mode='train'
 python executor.py -cfg='./cache/data/reinforce/cartpole/[-opt-]/config.json' --mode='test'
+
+python executor.py -cfg='./config/reinforce/reinforce_mountaincar_mc.json' --mode='train'
 ```
 
 - sarsa
@@ -131,6 +133,8 @@ python executor.py -cfg='./config/dqn/dqn_cartpole_off.json' --mode='train'
 python executor.py -cfg='./config/dqn/targetdqn_cartpole_off.json' --mode='train'
 python executor.py -cfg='./config/dqn/doubledqn_cartpole_off.json' --mode='train'
 python executor.py -cfg='./config/dqn/doubledqn_cartpole_per.json' --mode='train'
+
+python executor.py -cfg='./config/dqn/dqn_mountaincar_off.json' --mode='train'
 ```
 
 - a2c
@@ -141,6 +145,8 @@ python executor.py -cfg='./config/a2c/a2c_shared_nstep_cartpole_onbatch.json' --
 python executor.py -cfg='./config/a2c/a2c_shared_mc_cartpole_mc.json' --mode='train'
 python executor.py -cfg='./config/a2c/a2c_unshared_gae_cartpole_onbatch.json' --mode='train'
 python executor.py -cfg='./cache/data/a2c/cartpole/[-opt-]/config.json' --mode='test'
+
+python executor.py -cfg='./config/a2c/a2c_shared_nstep_mountaincar_onbatch.json' --mode='train'
 ```
 
 - ppo
 
@@ -222,6 +222,8 @@ def train_step(self, batch):
         with torch.no_grad():
             v_preds = self._cal_v(batch['states']);
             advs, v_tgts = self._cal_advs_and_v_tgts(batch, v_preds);
+        if self.rets_mean_baseline:
+            advs = alg_util.rets_mean_baseline(advs);
         self._train_main(batch, advs, v_tgts);
 
     def _suboptim_net(self, loss, net, optimizer):
 
@@ -0,0 +1,12 @@
+# @Time   : 2023.05.15
+# @Author : Darrius Lei
+# @Email  : darrius.lei@outlook.com
+
+import torch
+from agent.net.base import Net
+from agent.net import net_util
+
+class ConvNet(Net):
+    def __init__(self, net_cfg) -> None:
+        super().__init__(net_cfg)
+
@@ -18,7 +18,7 @@ class MLPNet(Net):
     def __init__(self, net_cfg, in_dim, out_dim) -> None:
         super().__init__(net_cfg)
         activation_fn = net_util.get_activation_fn(self.hid_layers_activation);
-        self.net = net_util.get_mlpnet(self.hid_layers, activation_fn, in_dim, out_dim);
+        self.net = net_util.get_mlp_net(self.hid_layers, activation_fn, in_dim, out_dim);
         #set training mode
         self.train();
 
@@ -47,11 +47,11 @@ def __init__(self, net_cfg, in_dim, out_dim) -> None:
         assert self.num_outnets > 1
         activation_fn = net_util.get_activation_fn(self.hid_layers_activation);
         #shared body
-        self.body_net = net_util.get_mlpnet(self.body_hid_layers, activation_fn, in_dim, self.body_out_dim);
+        self.body_net = net_util.get_mlp_net(self.body_hid_layers, activation_fn, in_dim, self.body_out_dim);
         #output nets
         self.outnets =  torch.nn.ModuleList()
         for i in range(self.num_outnets):
-            self.outnets.append(net_util.get_mlpnet(self.output_hid_layers, activation_fn, self.body_out_dim, out_dim[i]));
+            self.outnets.append(net_util.get_mlp_net(self.output_hid_layers, activation_fn, self.body_out_dim, out_dim[i]));
         #set training mode
         self.train();
 
 
@@ -117,7 +117,7 @@ def get_activation_fn(name = 'selu'):
                                         f'please replace or add the code yourself.\nSupport list:{activations}');
         raise callback.CustomException('ActivationCfgNameError');
 
-def get_mlpnet(hid_layers, activation_fn, in_dim, out_dim):
+def get_mlp_net(hid_layers, activation_fn, in_dim, out_dim):
     ''''''
     if len(hid_layers) > 1:
         layers = [
@@ -138,6 +138,29 @@ def get_mlpnet(hid_layers, activation_fn, in_dim, out_dim):
         ]
     return torch.nn.Sequential(*layers);
 
+def get_conv2d_net(in_channel, conv_hid_layers, activation_fn, batch_norm = False):
+    '''
+    Parameters:
+    -----------
+    channel_in:int
+        the channel of th input imag data
+
+    conv_hid_layers:list
+        parameters of the conv2d input: [out_channel, kernel, stride, padding, dialation]
+    
+    activation_fn: 
+        activation function
+    '''
+    conv_layers = []; 
+    for i, layer in enumerate(conv_hid_layers):
+        conv_layers.append(torch.nn.Conv2d(in_channel, *layer));
+        conv_layers.append(activation_fn);
+        if batch_norm and i != len(conv_hid_layers) - 1:
+            conv_layers.append(torch.nn.BatchNorm2d(layer[0]));
+        in_channel = layer[0];
+    return torch.nn.Sequential(*conv_layers);
+
+
 def net_param_copy(src, tgt):
     '''Copy network parameters from src to tgt'''
     tgt.load_state_dict(src.state_dict());
 
@@ -0,0 +1,58 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"A2C",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":false,
+            "policy_loss_var":1,
+            "value_loss_var":0.7,
+            "entropy_reg_var_cfg":{
+                "name":"fixed",
+                "var_start":0.01,
+                "var_end":0.01,
+                "star_epoch":0,
+                "end_epoch":0
+            },
+            "n_step_returns":32,
+            "lbd":null
+        },
+        "net_cfg":{
+            "name":"SharedMLPNet",
+            "body_hid_layers":[32],
+            "body_out_dim":16,
+            "hid_layers_activation":"Selu",
+            "output_hid_layers":[16]
         },
+        "optimizer_cfg":{
+            "name":"adam",
+            "lr":1e-3,
+            "weight_decay": 1e-08,
+            "betas": [
+                0.9,
+                0.999
+            ]
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicyBatch"
+        },
+        "max_epoch":10000,
+        "explore_times_per_train":1,
+        "train_exp_size":64,
+        "batch_learn_times_per_train":4
+    },
+    "env":{
+        "name":"MountainCar",
+        "solved_total_reward":-100,
+        "finish_total_reward":-80,
+        "survival_T":5000
+    },
+    "model_path":null,
+    "is_gpu_available":true,
+    "valid":{
+        "valid_step":100,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -0,0 +1,47 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"reinforce",
+            "var_schedule_cfg":null,
+            "gamma":0.99,
+            "rets_mean_baseline":true,
+            "policy_loss_var":1,
+            "entropy_reg_var_cfg":null
+        },
+        "net_cfg":{
+            "name":"MLPNet",
+            "hid_layers":[32, 16],
+            "hid_layers_activation":"Selu"
+        },
+        "optimizer_cfg":{
+            "name":"Adam",
+            "lr":1e-2,
+            "weight_decay": 1e-08,
+            "betas": [
+                0.9,
+                0.999
+            ]
+        },
+        "lr_schedule_cfg":null,
+        "memory_cfg":{
+            "name":"OnPolicy"
+        },
+        "explore_times_per_train":1,
+        "train_exp_size":1,
+        "batch_learn_times_per_train":4,
+        "max_epoch":10000
+    },
+    "env":{
+        "name":"MountainCar",
+        "solved_total_reward":-100,
+        "finish_total_reward":-80,
+        "survival_T":5000
+    },
+    "model_path":null,
+    "is_gpu_available":true,
+    "valid":{
+        "valid_step":10,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}