DarriusL
diff --git a/‎agent/algorithm/dqn.py
Lines changed: 2 additions & 2 deletions b/‎agent/algorithm/dqn.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎config/dqn/dqn_mountaincar_off.json
Lines changed: 58 additions & 0 deletions b/‎config/dqn/dqn_mountaincar_off.json
Lines changed: 58 additions & 0 deletions
diff --git a/‎env/base.py
Lines changed: 6 additions & 1 deletion b/‎env/base.py
Lines changed: 6 additions & 1 deletion
diff --git a/‎env/openai_gym.py
Lines changed: 8 additions & 3 deletions b/‎env/openai_gym.py
Lines changed: 8 additions & 3 deletions
diff --git a/‎executor.py
Lines changed: 0 additions & 1 deletion b/‎executor.py
Lines changed: 0 additions & 1 deletion
diff --git a/‎room/system/onpolicy.py
Lines changed: 6 additions & 4 deletions b/‎room/system/onpolicy.py
Lines changed: 6 additions & 4 deletions
@@ -38,7 +38,7 @@ def update(self):
         glb_var.get_value('var_reporter').add('Tau', self.var);
         if self.lr_schedule is not None:
             self.lr_schedule.step();
-            glb_var.get_value('var_reporter').add('lr', self.agent.algorithm.optimizer.param_groups[0]["lr"])
+            glb_var.get_value('var_reporter').add('lr', self.optimizer.param_groups[0]["lr"])
 
     def _cal_loss(self, batch):
         '''Calculate MSELoss for DQN'''
@@ -73,7 +73,7 @@ def train_step(self, batch):
         batch:dict
             Convert through batch_to_tensor before passing in
         '''
-        loss = self.cal_loss(batch);
+        loss = self._cal_loss(batch);
         self.optimizer.zero_grad();
         self._check_nan(loss);
         loss.backward();
 
@@ -0,0 +1,58 @@
+{
+    "agent_cfg":{
+        "algorithm_cfg":{
+            "name":"DQN",
+            "var_schedule_cfg":{
+                "name":"linear",
+                "var_start":5.0,
+                "var_end":0.05,
+                "star_epoch":0,
+                "end_epoch":10000
+            },
+            "gamma": 0.99
+        },
+        "net_cfg":{
+            "name":"MLPNet",
+            "hid_layers":[64],
+            "hid_layers_activation":"Selu"
+        },
10000 +        "optimizer_cfg":{
+            "name":"adam",
+            "lr":1e-2,
+            "weight_decay": 1e-08,
+            "betas": [
+                0.9,
+                0.999
+            ]
+        },
+        "lr_schedule_cfg":{
+            "name":"StepLR",
+            "step_size":10,
+            "gamma":0.997
+        },
+        "memory_cfg":{
+            "name":"OffPolicy",
+            "max_size":10000,
+            "batch_size":128,
+            "sample_add_latest":false
+        },
+        "max_epoch":20000,
+        "train_start_epoch":2,
+        "expolre_max_step":64,
+        "train_times_per_epoch":16,
+        "batch_learn_times_per_train":2
+    },
+    "env":{
+        "name":"MountainCar",
+        "solved_total_reward":-100,
+        "finish_total_reward":-80,
+        "survival_T":5000
+    },
+    "model_path":null,
+    "is_gpu_available":true,
+    "valid":{
+        "valid_step":10,
+        "valid_times":5,
+        "not_improve_finish_step":5
+    }
+}
@@ -7,11 +7,16 @@
 logger = glb_var.get_value('log');
 
 def _make_env(env_cfg):
-    if env_cfg['name'].lower() in 'cartpole':
+    if env_cfg['name'].lower() == 'cartpole':
         if glb_var.get_value('mode') == 'train':
             return gym.make("CartPole-v1");
         else:
             return gym.make("CartPole-v1", render_mode="human");
+    elif env_cfg['name'].lower() == 'mountaincar':
+        if glb_var.get_value('mode') == 'train':
+            return gym.make("MountainCar-v0").env;
+        else:
+            return gym.make("MountainCar-v0", render_mode="human").env;
     else:
         logger.error(f'Type of env [{env_cfg["name"]}] is not supported.\nPlease replace or add by yourself.')
         raise callback.CustomException('NetCfgTypeError');
 
@@ -12,6 +12,7 @@ class Main_Body:
     env: None
     total_reward:None
     t:None
+    is_terminated:None
 
 class OpenaiEnv(Env):
     '''the openai environment
@@ -37,7 +38,7 @@ def __init__(self, env_cfg) -> None:
         self.train_env_data = None;
         total_reward = 0;
         t = 0;
-        self.main_body = Main_Body(env, total_reward, t);
+        self.main_body = Main_Body(env, total_reward, t, False);
 
     def get_state_and_action_dim(self):
         '''(state_dim, action_choice)
@@ -54,7 +55,7 @@ def get_total_reward(self):
 
     def is_terminated(self):
         '''Is the current environment terminated'''
-        return True if self.main_body.env.steps_beyond_terminated is not None else False;
+        return self.main_body.is_terminated;
 
     def _save_train_env(self):
         '''Save the training environment for recovery'''
@@ -68,7 +69,7 @@ def _resume_train_env(self):
     def train(self):
         '''set train mode
         '''
-        if (not self.is_training):
+        if not self.is_training:
             self.is_training = True;
             if glb_var.get_value('mode') == 'train':
                 self._resume_train_env();
@@ -90,16 +91,20 @@ def reset(self):
         '''Reset the env'''
         self.main_body.total_reward = 0;
         self.main_body.t = 0;
+        self.main_body.is_terminated = False;
         state, _ = self.main_body.env.reset();
         return state;
 
     def step(self, action):
         '''Change the env through the action'''
+        if self.main_body.is_terminated:
+            raise RuntimeError
         self.main_body.t += 1;
         next_state, reward, done, info1, info2 = self.main_body.env.step(action);
         self.main_body.total_reward += reward;
         if self.main_body.t == self.survival_T:
             done = True;
+        self.main_body.is_terminated = done;
         return next_state, reward, done, info1, info2;
 
     def render(self):
 
@@ -5,7 +5,6 @@
 from lib import glb_var, callback
 from lib.callback import Logger
 
-#TODO:Add: A mode that can be trained on existing models
 #TODO:Notes on each algorithm
 #TODO:Add algorithm:https://openai.com/research/openai-baselines-acktr-a2c
 #TODO:a3c gpu
 
@@ -139,10 +139,12 @@ def train(self):
             self.train_mode();
             #collect experiences
             self._explore();
-            #start to train
-            self._train_epoch(epoch);
-            #algorithm update
-            self.agent.algorithm.update();
+            #check for off policy algorithm
+            if self._check_train_point(epoch):
+                #start to train
+                self._train_epoch(epoch);
+                #algorithm update
+                self.agent.algorithm.update();
             #valid mode
             if self._check_valid_point(epoch):
                 if self._valid_epoch(epoch):