Removed Optimizer being a subclass of TensorFlow optimizer class, few fixes

Alexander Kuhnle · Alexander Kuhnle · commit e292c707e465 · 2017-10-21T16:53:58.000+01:00
diff --git a/tensorforce/contrib/ale.py b/tensorforce/contrib/ale.py
@@ -88,12 +88,12 @@ def reset(self):
         self.gamescreen = np.empty(self.gamescreen.shape, dtype=np.uint8)
         return self.current_state
 
-    def execute(self, action):
+    def execute(self, actions):
         # convert action to ale action
-        ale_action = self.action_inds[action]
+        ale_actions = self.action_inds[actions]
 
         # get reward and process terminal & next state
-        rew = self.ale.act(ale_action)
+        rew = self.ale.act(ale_actions)
         if self.loss_of_life_termination or self.loss_of_life_reward != 0:
             new_lives = self.ale.lives()
             if new_lives < self.cur_lives:
diff --git a/tensorforce/contrib/deepmind_lab.py b/tensorforce/contrib/deepmind_lab.py
@@ -85,22 +85,22 @@ def reset(self):
         self.level.reset()  # optional: episode=-1, seed=None
         return self.level.observations()[self.state_attribute]
 
-    def execute(self, action):
+    def execute(self, actions):
         """
         Pass action to universe environment, return reward, next step, terminal state and additional info.
 
         :param action: action to execute as numpy array, should have dtype np.intc and should adhere to the specification given in DeepMindLabEnvironment.action_spec(level_id)
         :return: dict containing the next state, the reward, and a boolean indicating if the next state is a terminal state
         """
-        actions = list()
+        adjusted_actions = list()
         for action_spec in self.level.action_spec():
             if action_spec['min'] == -1 and action_spec['max'] == 1:
-                actions.append(action[action_spec['name']] - 1)
+                adjusted_actions.append(actions[action_spec['name']] - 1)
             else:
-                actions.append(action[action_spec['name']])  # clip?
-        action = np.array(actions, dtype=np.intc)
+                adjusted_actions.append(actions[action_spec['name']])  # clip?
+        actions = np.array(adjusted_actions, dtype=np.intc)
 
-        reward = self.level.step(action=action, num_steps=self.repeat_action)
+        reward = self.level.step(action=actions, num_steps=self.repeat_action)
         state = self.level.observations()['RGB_INTERLACED']
         terminal = not self.level.is_running()
         return state, terminal, reward
diff --git a/tensorforce/contrib/maze_explorer.py b/tensorforce/contrib/maze_explorer.py
@@ -50,8 +50,8 @@ def reset(self):
         # TODO: Reset to `ones`?
         return self.engine.reset()
 
-    def execute(self, action):
-        state, reward, terminal, _ = self.engine.act(action)
+    def execute(self, actions):
+        state, reward, terminal, _ = self.engine.act(actions)
         return state, terminal, reward
 
     @property
diff --git a/tensorforce/contrib/openai_gym.py b/tensorforce/contrib/openai_gym.py
@@ -60,8 +60,8 @@ def close(self):
     def reset(self):
         return self.gym.reset()
 
-    def execute(self, action):
-        state, reward, terminal, _ = self.gym.step(action)
+    def execute(self, actions):
+        state, reward, terminal, _ = self.gym.step(actions)
         return state, terminal, reward
 
     @property
diff --git a/tensorforce/contrib/openai_universe.py b/tensorforce/contrib/openai_universe.py
@@ -58,25 +58,25 @@ def reset(self):
 
         return state[0]
 
-    def execute(self, action):
-        state, terminal, reward = self._execute(action)
+    def execute(self, actions):
+        state, terminal, reward = self._execute(actions)
         return self._wait_state(state, terminal, reward)
 
-    def _execute(self, action):
+    def _execute(self, actions):
         pass_actions = []
-        for action_name, value in action.items():
+        for action_name, value in actions.items():
             if action_name == 'key':
                 key_event = self._int_to_key(value)
                 pass_actions.append(key_event)
             elif action_name == 'button':
                 btn_event = self._int_to_btn(value)
-                x, y = self._int_to_pos(action.get('position', 0))
+                x, y = self._int_to_pos(actions.get('position', 0))
                 pass_actions.append(universe.spaces.PointerEvent(x, y, btn_event))
 
         state, reward, terminal, _ = self.env.step([pass_actions])
 
         if isinstance(state[0], dict):
-            state[0].pop('text', None) # We can't handle string states right now, so omit the text state for now
+            state[0].pop('text', None)  # We can't handle string states right now, so omit the text state for now
 
         return state[0], terminal[0], reward[0]
 
diff --git a/tensorforce/core/optimizers/optimizer.py b/tensorforce/core/optimizers/optimizer.py
@@ -23,7 +23,7 @@
 import tensorforce.core.optimizers
 
 
-class Optimizer(tf.train.GradientDescentOptimizer):
+class Optimizer(object):
     """
     Generic TensorFlow optimizer which minimizes a not yet further specified expression, usually  
     some kind of loss function. More generally, an optimizer can be considered as some method of  
@@ -34,10 +34,6 @@ def __init__(self):
         """
         Creates a new optimizer instance.
         """
-        super(Optimizer, self).__init__(self._learning_rate, use_locking=False, name='TensorForceOptimizer')
-
-        self._learning_rate = -1.0
-
         self.variables = dict()
 
         def custom_getter(getter, name, registered=False, **kwargs):
@@ -109,100 +105,17 @@ def from_spec(spec, kwargs=None):
         assert isinstance(optimizer, Optimizer)
         return optimizer
 
-    # modified minimize
-    def apply_step(
-        self,
-        variables,
-        deltas,
-        global_step=None,
-        gate_gradients=None,
-        aggregation_method=None,
-        colocate_gradients_with_ops=False,
-        name=None,
-        grad_loss=None
-    ):
-
-        deltas_and_vars = self.compute_deltas(
-            deltas=deltas,
-            var_list=variables,
-            gate_gradients=gate_gradients,
-            aggregation_method=aggregation_method,
-            colocate_gradients_with_ops=colocate_gradients_with_ops,
-            grad_loss=grad_loss
-        )
-
-        vars_with_delta = [v for g, v in deltas_and_vars if g is not None]
-        if not vars_with_delta:
-            raise TensorForceError(
-                "No gradients provided for any variable, check your graph for ops that do not "
-                "support gradients, between variables {} and loss {}".format(
-                    [str(v) for _, v in deltas_and_vars], deltas
-                )
-            )
-
-        return super(Optimizer, self).apply_gradients(deltas_and_vars, global_step=global_step, name=name)
-
-    def compute_gradients(self, *args, **kwargs):
-        raise NotImplementedError
-
-    def apply_gradients(self, *args, **kwargs):
-        raise NotImplementedError
-
-    # Modified compute_gradients
-    def compute_deltas(
-        self,
-        deltas,
-        var_list=None,
-        gate_gradients=None,
-        aggregation_method=None,
-        colocate_gradients_with_ops=False,
-        grad_loss=None
-    ):
-        if aggregation_method is not None or colocate_gradients_with_ops or grad_loss is not None:
-            raise TensorForceError("'aggregation_method', colocate_gradients_with_ops' and 'grad_loss' arguments are not supported.")
-        if gate_gradients is None:
-            gate_gradients = Optimizer.GATE_OP
-        if gate_gradients not in (Optimizer.GATE_NONE, Optimizer.GATE_OP, Optimizer.GATE_GRAPH):
-            raise TensorForceError("'gate_gradients' must be one of: Optimizer.GATE_NONE, Optimizer.GATE_OP, Optimizer.GATE_GRAPH. Not {}".format(gate_gradients))
-        # if isinstance(loss, tf.Tensor):
-        #     self._assert_valid_dtypes([loss])
-        # else:
-        #     self._assert_valid_dtypes(loss)
-        # if var_list is None:
-        #     var_list = tf.trainable_variables() + tf.get_collection(tf.GraphKeys.TRAINABLE_RESOURCE_VARIABLES)
-        # else:
-        #     var_list = tf.python.util.nest.flatten(var_list)
-        var_list += tf.get_collection(tf.GraphKeys._STREAMING_MODEL_PORTS)
-        if not var_list:
-            raise TensorForceError("No variables to optimize.")
-        # processors = [tf.train.Optimizer._get_processor(v) for v in var_list]
-        # var_refs = [p.target() for p in processors]
-        # grads = gradients.gradients(loss, var_refs, grad_ys=grad_loss, gate_gradients=(gate_gradients == Optimizer.GATE_OP), aggregation_method=aggregation_method, colocate_gradients_with_ops=colocate_gradients_with_ops)
-
-        if gate_gradients == Optimizer.GATE_GRAPH:
-            deltas = tf.tuple(deltas)
-        deltas_and_vars = list(zip(deltas, var_list))
-        self._assert_valid_dtypes([v for g, v in deltas_and_vars if g is not None and v.dtype != tf.resource])
-        return deltas_and_vars
-
-    # Below, we just pass through tf optimizers
-    def _prepare(self):
-        return tf.train.GradientDescentOptimizer._prepare(self=self)
-
-    def _apply_dense(self, grad, var):
-        return tf.train.GradientDescentOptimizer._apply_dense(self=self, grad=grad, var=var)
-
-    def _apply_sparse_duplicate_indices(self, grad, var):
-        return tf.train.GradientDescentOptimizer._apply_sparse_duplicate_indices(
-            self=self, grad=grad, var=var
-        )
+    def apply_step(self, variables, deltas):
+        """
+        Applies step deltas to variable values.
 
-    def _resource_apply_dense(self, grad, handle):
-        return tf.train.GradientDescentOptimizer._resource_apply_dense(
-            self=self, grad=grad, handle=handle
-        )
+        Args:
+            variables: List of variables.
+            deltas: List of deltas of same length.
 
-    def _resource_apply_sparse_duplicate_indices(self, grad, handle, indices):
-        return tf.train.GradientDescentOptimizer._resource_apply_sparse_duplicate_indices(
-            self=self, grad=grad, handle=handle
-        )
+        Returns:
+            The step-applied operation.
+        """
+        if len(variables) != len(deltas):
+            raise TensorForceError("Invalid variables and deltas lists.")
+        return tf.group(*(variable.assign_add(delta=delta) for variable, delta in zip(variables, deltas)))
diff --git a/tensorforce/environments/minimal_test.py b/tensorforce/environments/minimal_test.py
@@ -59,18 +59,18 @@ def reset(self):
 
     def execute(self, actions):
         if self.single_state_action:
-            action = (action,)
+            actions = (actions,)
         else:
-            action = tuple(action[name] for name in sorted(action))
+            actions = tuple(actions[name] for name in sorted(actions))
 
         reward = 0.0
         for n, (action_type, shape) in enumerate(self.specification):
             if action_type == 'bool' or action_type == 'int':
-                correct = np.sum(action[n])
+                correct = np.sum(actions[n])
                 overall = util.prod(shape)
                 self.state[n] = ((overall - correct) / overall, correct / overall)
             elif action_type == 'float' or action_type == 'bounded-float':
-                step = np.sum(action[n]) / util.prod(shape)
+                step = np.sum(actions[n]) / util.prod(shape)
                 self.state[n] = max(self.state[n][0] - step, 0.0), min(self.state[n][1] + step, 1.0)
             reward += max(min(self.state[n][1], 1.0), 0.0)