Update cartpole_a2c.py

20chase · web-flow · commit 8bb4ba8aa748 · 2017-06-26T16:48:14.000+08:00
diff --git a/2-cartpole/4-actor-critic/cartpole_a2c.py b/2-cartpole/4-actor-critic/cartpole_a2c.py
@@ -74,8 +74,7 @@ def train_model(self, state, action, reward, next_state, done):
             advantages[0][action] = reward - value
             target[0][0] = reward
         else:
-            advantages[0][action] = reward + self.discount_factor * (
-                next_value - value)
+            advantages[0][action] = reward + self.discount_factor * (next_value) - value
             target[0][0] = reward + self.discount_factor * next_value
 
         self.actor.fit(state, advantages, epochs=1, verbose=0)