adjusted example paths, moved some utils functions to util.py

krfricke · krfricke · commit 7b365c6975ba · 2017-05-15T21:13:14.000+02:00
diff --git a/examples/lab_main.py b/examples/lab_main.py
@@ -29,11 +29,9 @@
 import deepmind_lab
 logger = logging.getLogger(__name__)
 
-from tensorforce.config import Config
-from tensorforce.external.deepmind_lab import DeepMindLabEnvironment
-from tensorforce.util.experiment_util import build_preprocessing_stack
-from tensorforce.util.agent_util import create_agent
-from tensorforce.util.config_util import log_levels
+from tensorforce.config import Configuration
+from tensorforce.environments.deepmind_lab import DeepMindLab
+from tensorforce.util import build_preprocessing_stack, create_agent, log_levels
 from tensorforce.execution import Runner
 
 
@@ -61,9 +59,9 @@ def main():
 
     args = parser.parse_args()
 
-    env = DeepMindLabEnvironment(args.level_id)
+    env = DeepMindLab(args.level_id)
 
-    config = Config({
+    config = Configuration({
         'repeat_actions': 1,
         'actions': env.actions,
         'action_shape': env.action_shape,
diff --git a/examples/openai_gym.py b/examples/openai_gym.py
@@ -26,11 +26,9 @@
 import logging
 import numpy as np
 
-from tensorforce.config import Config
-from tensorforce.external.openai_gym import OpenAIGymEnvironment
-from tensorforce.util.experiment_util import build_preprocessing_stack
-from tensorforce.util.agent_util import create_agent
-from tensorforce.util.config_util import log_levels
+from tensorforce.config import Configuration
+from tensorforce.environments.openai_gym import OpenAIGym
+from tensorforce.util import build_preprocessing_stack, create_agent, log_levels
 from tensorforce.execution import Runner
 
 
@@ -53,9 +51,9 @@ def main():
 
     args = parser.parse_args()
 
-    env = OpenAIGymEnvironment(args.gym_id, monitor=args.monitor, monitor_safe=args.monitor_safe, monitor_video=args.monitor_video)
+    env = OpenAIGym(args.gym_id, monitor=args.monitor, monitor_safe=args.monitor_safe, monitor_video=args.monitor_video)
 
-    config = Config({
+    config = Configuration({
         'repeat_actions': 1,
         'actions': env.actions,
         'action_shape': env.action_shape,
diff --git a/examples/openai_gym_async.py b/examples/openai_gym_async.py
@@ -29,11 +29,10 @@
 
 from six.moves import xrange, shlex_quote
 
-from tensorforce.config import Config, create_config
+from tensorforce.config import Configuration, create_config
 from tensorforce.execution.distributed_runner import DistributedRunner
-from tensorforce.external.openai_gym import OpenAIGymEnvironment
-from tensorforce.util.config_util import log_levels
-from tensorforce.util.experiment_util import build_preprocessing_stack
+from tensorforce.environments.openai_gym import OpenAIGym
+from tensorforce.util import log_levels, build_preprocessing_stack
 
 
 def main():
@@ -127,9 +126,9 @@ def build_cmd(index, parameter_server):
 
         return 0
 
-    env = OpenAIGymEnvironment(args.gym_id)
+    env = OpenAIGym(args.gym_id)
 
-    config = Config({
+    config = Configuration({
         'repeat_actions': 1,
         'actions': env.actions,
         'action_shape': env.action_shape,
diff --git a/examples/openai_universe.py b/examples/openai_universe.py
@@ -27,9 +27,8 @@
 import numpy as np
 
 from tensorforce.config import Config
-from tensorforce.external.openai_universe import OpenAIUniverseEnvironment
-from tensorforce.util.agent_util import create_agent, get_default_config
-from tensorforce.util.wrapper_util import create_wrapper
+from tensorforce.environments.openai_universe import OpenAIUniverse
+from tensorforce.util import create_agent, get_default_config, build_preprocessing_stack
 
 
 def main():
@@ -55,7 +54,7 @@ def main():
 
     max_timesteps = args.max_timesteps
 
-    environment = OpenAIUniverseEnvironment(env_id)
+    environment = OpenAIUniverse(env_id)
 
     config = Config({
         'actions': environment.actions,
@@ -69,10 +68,13 @@ def main():
     if args.network_config:
         config.read_json(args.network_config)
 
-    state_wrapper = None
-    if config.state_wrapper:
-        state_wrapper = create_wrapper(config.state_wrapper, config.state_wrapper_param)
-        config.state_shape = state_wrapper.state_shape(config.state_shape)
+
+    preprocessing_config = config.get('preprocessing')
+    if preprocessing_config:
+        stack = build_preprocessing_stack(preprocessing_config)
+        config.state_shape = stack.shape(config.state_shape)
+    else:
+        stack = None
 
     agent = create_agent(args.agent, config)
 
@@ -89,8 +91,8 @@ def main():
         episode_reward = 0
         repeat_action_count = 0
         for j in xrange(max_timesteps):
-            if state_wrapper:
-                full_state = state_wrapper.get_full_state(state)
+            if stack:
+                full_state = stack.process(state)
             else:
                 full_state = state
             if repeat_action_count <= 0:
diff --git a/examples/simple_q_agent.py b/examples/simple_q_agent.py
@@ -25,12 +25,11 @@
 import tensorflow as tf
 import logging
 
-from tensorforce.agents import MemoryAgent
-from tensorforce.models import Model
-from tensorforce.models.neural_networks import NeuralNetwork
+from tensorforce.core import MemoryAgent, Model
+from tensorforce.core.networks import NeuralNetwork
 
-from tensorforce.config import Config
-from tensorforce.external.openai_gym import OpenAIGymEnvironment
+from tensorforce.config import Configuration
+from tensorforce.environments.openai_gym import OpenAIGym
 from tensorforce.execution import Runner
 
 
@@ -188,9 +187,9 @@ def main():
     max_episodes = 10000
     max_timesteps = 1000
 
-    env = OpenAIGymEnvironment(gym_id, monitor=False, monitor_video=False)
+    env = OpenAIGym(gym_id, monitor=False, monitor_video=False)
 
-    config = Config({
+    config = Configuration({
         'repeat_actions': 1,
         'actions': env.actions,
         'action_shape': env.action_shape,
diff --git a/tensorforce/config.py b/tensorforce/config.py
@@ -54,3 +54,23 @@ def read_json(self, filename):
         # don't catch, we let open() and json.loads() raise their own exceptions
         with open(path, 'r') as f:
             self.update(json.loads(f.read()))
+
+
+def create_config(values, default=None):
+    """
+    Create Config object from dict. Use default dict for default values.
+    :param values: dict containing actual values
+    :param default: dict containing default values or string pointing to default file
+    :return: Config object
+    """
+    if default:
+        if isinstance(default, dict):
+            default_data = default
+        else:
+            raise ValueError("Invalid default config data.")
+        config = Configuration(default)
+        if values:
+            config.update(values)
+    else:
+        config = Configuration(values)
+    return config
diff --git a/tensorforce/core/agent.py b/tensorforce/core/agent.py
@@ -28,7 +28,7 @@
 
 from random import random, randrange
 
-from tensorforce import util
+from tensorforce.util import module
 from tensorforce.core.explorations import explorations
 
 
@@ -70,7 +70,7 @@ def __init__(self, config, network_builder):
             elif exploration in explorations:
                 self.exploration[name] = explorations[exploration](*args, **kwargs)
             else:
-                self.exploration[name] = util.module(exploration)(*args, **kwargs)
+                self.exploration[name] = module(exploration)(*args, **kwargs)
 
         self.episodes = 0
         self.timesteps = 0
diff --git a/tensorforce/core/networks/conjugate_gradient_optimizer.py b/tensorforce/core/networks/conjugate_gradient_optimizer.py
@@ -70,7 +70,7 @@ def solve(self, f_Ax, b):
             residual_dot_residual = new_residual_dot_residual
 
             if residual_dot_residual < self.stop_residual:
-                self.logger.debug('Approximate cg solution found after ' + str(i) + ' iterations')
+                self.logger.debug('Approximate cg solution found after {:d} iterations'.format(i+1))
                 break
 
         return x
diff --git a/tensorforce/environments/__init__.py b/tensorforce/environments/__init__.py
@@ -16,5 +16,4 @@
 
 from tensorforce.environments.environment import Environment
 
-
 __all__ = ['Environment']
diff --git a/tensorforce/exception.py b/tensorforce/exception.py
@@ -24,3 +24,10 @@ class TensorForceError(Exception):
     TensorForce error
     """
     pass
+
+
+class ConfigError(TensorForceError):
+    """
+    TensorForce error
+    """
+    pass
diff --git a/tensorforce/util.py b/tensorforce/util.py
@@ -14,9 +14,25 @@
 # ==============================================================================
 
 import importlib
+import logging
 import numpy as np
 import tensorflow as tf
 
+from tensorforce.config import Configuration
+from tensorforce.exception import *
+from tensorforce.agents import *
+from tensorforce import preprocessing
+
+
+log_levels = {
+    "info": logging.INFO,
+    "debug": logging.DEBUG,
+    "critical": logging.CRITICAL,
+    "warning": logging.WARNING,
+    "fatal": logging.FATAL
+}
+
+
 
 def prod(xs):
     p = 1
@@ -101,3 +117,112 @@ def function(f):
 
 #         data[fk] = func(*args, **kwargs)
 #         return True
+
+
+
+
+def repeat_action(environment, action, repeat_action=1):
+    """
+    Repeat action `repeat_action_count` times. Cumulate reward and return last state.
+
+    :param environment: Environment object
+    :param action: Action to be executed
+    :param repeat_action: How often to repeat the action
+    :return: result dict
+    """
+    if repeat_action <= 0:
+        raise ValueError('repeat_action lower or equal zero')
+
+    reward = 0.
+    terminal_state = False
+    for count in xrange(repeat_action):
+        result = environment.execute_action(action)
+
+        state = result['state']
+        reward += result['reward']
+        terminal_state = terminal_state or result['terminal_state']
+        info = result.get('info', None)
+
+    return dict(state=state,
+                reward=reward,
+                terminal_state=terminal_state,
+                info=info)
+
+
+
+
+
+
+
+
+preprocessors = {
+    'concat': preprocessing.Concat,
+    'grayscale': preprocessing.Grayscale,
+    'imresize': preprocessing.Imresize,
+    'maximum': preprocessing.Maximum,
+    'normalize': preprocessing.Normalize,
+    'standardize': preprocessing.Standardize
+}
+
+
+def build_preprocessing_stack(config):
+    stack = preprocessing.Stack()
+
+    for preprocessor_conf in config:
+        preprocessor_name = preprocessor_conf[0]
+
+        preprocessor_params = []
+        if len(preprocessor_conf) > 1:
+            preprocessor_params = preprocessor_conf[1:]
+
+        preprocessor_class = preprocessors.get(preprocessor_name, None)
+        if not preprocessor_class:
+            raise ConfigError("No such preprocessor: {}".format(preprocessor_name))
+
+        preprocessor = preprocessor_class(*preprocessor_params)
+        stack += preprocessor
+
+    return stack
+
+
+
+def create_agent(agent_type, config, scope='prefixed_scope'):
+    """
+    Create agent instance by providing type as a string parameter.
+
+    :param agent_type: String parameter containing agent type
+    :param config: Dict containing configuration
+    :param scope: Scope prefix used for distributed tensorflow scope separation
+    :return: Agent instance
+    """
+    agent_class = agents.get(agent_type)
+
+    if not agent_class:
+        raise TensorForceError("No such agent: {}".format(agent_type))
+
+    return agent_class(config, scope)
+
+
+def get_default_config(agent_type):
+    """
+    Get default configuration from agent by providing type as a string parameter.
+
+    :param agent_type: String parameter containing agent type
+    :return: Default configuration dict
+    """
+    agent_class = agents.get(agent_type)
+
+    if not agent_class:
+        raise TensorForceError("No such agent: {}".format(agent_type))
+
+    return Configuration(agent_class.default_config), Config(agent_class.model_ref.default_config)
+
+
+agents = {
+    'RandomAgent': RandomAgent,
+    'DQNAgent': DQNAgent,
+    'NAFAgent': NAFAgent,
+    'TRPOAgent': TRPOAgent,
+    'VPGAgent': VPGAgent,
+    'DQFDAgent': DQFDAgent,
+}

Original file line number	Diff line number	Diff line change
`@@ -16,5 +16,4 @@`
`16`	`16`
`17`	`17`	`from tensorforce.environments.environment import Environment`
`18`	`18`
`19`		`-`
`20`	`19`	`__all__ = ['Environment']`