rkdls
diff --git a/‎06 - Game Agent (DQN)/README.md‎
Lines changed: 89 additions & 0 deletions b/‎06 - Game Agent (DQN)/README.md‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎06 - Game Agent (DQN)/agent.py‎
Lines changed: 52 additions & 0 deletions b/‎06 - Game Agent (DQN)/agent.py‎
Lines changed: 52 additions & 0 deletions
diff --git a/‎06 - Game Agent (DQN)/game.py‎
Lines changed: 183 additions & 0 deletions b/‎06 - Game Agent (DQN)/game.py‎
Lines changed: 183 additions & 0 deletions
diff --git a/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484955089.mpr‎
2.34 MB b/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484955089.mpr‎
2.34 MB
diff --git a/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484971780.mpr‎
99.2 KB b/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484971780.mpr‎
99.2 KB
diff --git a/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484972172.mpr‎
99.1 KB b/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484972172.mpr‎
99.1 KB
diff --git a/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484987486.mpr‎
99.1 KB b/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484987486.mpr‎
99.1 KB
diff --git a/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484988733.mpr‎
99.1 KB b/‎06 - Game Agent (DQN)/logs/events.out.tfevents.1484988733.mpr‎
99.1 KB
@@ -0,0 +1,89 @@
+# Deep Q-network
+
+- 구글의 딥마인드에서 개발한 Deep Q-network (DQN)을 이용하여 Q-learning 을 구현해봅니다.
+- 딥마인드의 논문에서는 신경망 모델을 CNN 모델을 사용하지만, 여기서는 간단히 기본적인 다중 신경망 모델을 사용합니다.
+- 게임은 간단한 장애물 피하기 게임이며 화면 출력은 matplotlib 으로 구현하였습니다.
+
+### 파일 설명
+
+- agent.py
+  - 게임을 진행하거나 학습시키는 에이전트입니다.
+- game.py
+  - 게임을 구현해 놓은 파일입니다. 게임의 상태를 화면의 픽셀로 가져오지 않고, 좌표값을 이용하여 계산량을 줄이도록 하였습니다.
+- model.py
+  - DQN을 구현해 놓은 파일입니다.
+  - 논문에서는 CNN 모델을 사용하였지만, 구현을 간단히 하고 성능을 빠르게 하기 위해 기본적인 신경망 모델을 사용합니다.
+
+### 핵심 코드
+
+게임 구현을 위한 다양한 내용들이 들어있어 코드분량이 꽤 많지만, 핵심 내용은 딱 다음과 같습니다.
+
+1. Q_value 를 이용해 얻어온 액션을 수행하고, 해당 액션에 의한 게임의 상태와 리워드를 획득한 뒤, 이것을 메모리에 순차적으로 쌓아둡니다.
+2. 일정 수준 이상의 메모리가 쌓이면, 메모리에 저장된 것들 중 샘플링을 하여 논문의 다음 수식을 이용해 최적화를 수행합니다.
+
+```
+Set y_j =
+    if episode is terminates at step j+1 then r_j
+    otherwise r_j + γ*max_a'Q(ð_(j+1),a';θ')
+With respect to the network parameters θ
+    Perform a gradient descent step on (y_j-Q(ð_j,a_j;θ))^2
+Every C steps reset Q^ = Q
+```
+
+위 내용을 구현한 코드는 model.py 파일의 아래의 내용과 같습니다.
+
+```python
+# model.py
+
+def build_model(self):
+    L1 = tf.nn.relu(tf.matmul(state, W1) + b1)
+    Q_value = tf.matmul(L2, W3) + b3
+
+    Q_action = tf.reduce_sum(tf.mul(Q_value, self.input_action), axis=1)
+    cost = tf.reduce_mean(tf.square(self.input_Y - Q_action))
+    train_op = tf.train.AdamOptimizer(1e-6).minimize(cost, global_step=self.global_step)
+
+def train(self):
+    Q_value = self.Q_value.eval(feed_dict={self.input_state: next_state})
+
+    for i in range(0, self.BATCH_SIZE):
+        if minibatch[i][4]:  # if episode is terminates
+            Y.append(reward[i])
+        else:
+            Y.append(reward[i] + self.GAMMA * np.max(Q_value[i]))
+
+    self.train_op.run(feed_dict={
+        self.input_Y: Y,
+        self.input_action: action,
+        self.input_state: state
+    })
+```
+
+### 결과물
+
+- 상상력을 발휘해주세요. 검정색 배경은 도로, 사각형을 자동차들로 그리고 녹색 사각형을 자율 주행차라고 상상하고 즐겨주시면 감사하겠습니다. :-D
+- 100만번 정도의 학습 후 최고의 성능을 내기 시작했으며, 2012 맥북프로 CPU 버전으로 최고 성능을 내는데까지 약 1시간 정도 걸렸습니다.
+
+![게임](screenshot_game.gif)
+
+![텐서보드](screenshot_tensorboard.png)
+
+### 사용법
+
+자가 학습시키기
+
+```
+python agent.py -train
+```
+
+얼마나 잘 하는지 확인해보기
+
+```
+python agent.py
+```
+
+텐서보드로 평균 보상값 확인해보기
+
+```
+tensorboard --logdir=./logs
+```
@@ -0,0 +1,52 @@
+# -*- coding: utf-8 -*-
+# 게임 구현과 DQN 모델을 이용해 게임을 실행하고 학습을 진행합니다.
+
+import tensorflow as tf
+import numpy as np
+import time
+
+from game import Game
+from model import DQN
+
+
+tf.app.flags.DEFINE_boolean("train", False, "학습모드. 게임을 화면에 보여주지 않습니다.")
+FLAGS = tf.app.flags.FLAGS
+
+# action: 0: 좌, 1: 유지, 2: 우
+n_action = 3
+screen_width = 6
+screen_height = 10
+
+
+def main(_):
+    game = Game(screen_width, screen_height, show_game=not FLAGS.train)
+    state = game.get_state()
+    brain = DQN(n_action, screen_width, screen_height, state)
+
+    while 1:
+        game.reset()
+        gameover = FLAGS.train
+
+        print " Avg. Reward: %d, Total Game: %d" % (
+                    game.total_reward / game.total_game, game.total_game)
+
+        while not gameover:
+            # DQN 모델을 이용해 실행할 액션을 결정합니다.
+            action = brain.get_action(FLAGS.train)
+
+            # 결정한 액션을 이용해 게임을 진행하고, 보상과 게임의 종료 여부를 받아옵니다.
+            reward, gameover = game.proceed(np.argmax(action))
+
+            # 위에서 결정한 액션에 따른 현재 상태를 가져옵니다.
+            # 상태는 screen_width x screen_height 크기의 화면 구성입니다.
+            state = game.get_state()
+
+            # DQN 으로 학습을 진행합니다.
+            brain.step(state, action, reward, gameover)
+
+            # 학습모드가 아닌 경우, 게임 진행을 인간이 인지할 수 있는 속도로^^; 보여줍니다.
+            if not FLAGS.train:
+                time.sleep(0.3)
+
+if __name__ == '__main__':
+    tf.app.run()
@@ -0,0 +1,183 @@
+# -*- coding: utf-8 -*-
+# 장애물 회피 게임 즉, 자율주행차:-D 게임을 구현합니다.
+
+import numpy as np
+import random
+
+import matplotlib.pyplot as plt
+import matplotlib.patches as patches
+
+
+class Game:
+    def __init__(self, screen_width, screen_height, show_game=True):
+        self.screen_width = screen_width
+        self.screen_height = screen_height
+        # 도로의 크기는 스크린의 반으로 정하며, 도로의 좌측 우측의 여백을 계산해둡니다.
+        self.road_width = (screen_width / 2)
+        self.road_left = self.road_width / 2 + 1
+        self.road_right = self.road_left + self.road_width - 1
+
+        # 자동차와 장애물의 초기 위치와, 장애물 각각의 속도를 정합니다.
+        self.car = {"col": 0, "row": 2}
+        self.block = [
+            {"col": 0, "row": 0, "speed": 1},
+            {"col": 0, "row": 0, "speed": 2},
+        ]
+
+        self.total_reward = 0.
+        self.current_reward = 0.
+        self.total_game = 0
+        self.show_game = show_game
+
+        if show_game:
+            self.fig, self.axis = self.prepare_display()
+
+    def prepare_display(self):
+        """게임을 화면에 보여주기 위해 matplotlib 으로 출력할 화면을 설정합니다."""
+        fig, axis = plt.subplots(figsize=(4, 6))
+        fig.set_size_inches(4, 6)
+        # 화면을 닫으면 프로그램을 종료합니다.
+        fig.canvas.mpl_connect('close_event', exit)
+        plt.axis((0, self.screen_width, 0, self.screen_height))
+        plt.tick_params(top='off', right='off',
+                        left='off', labelleft='off',
+                        bottom='off', labelbottom='off')
+
+        plt.draw()
+        # 게임을 진행하며 화면을 업데이트 할 수 있도록 interactive 모드로 설정합니다.
+        plt.ion()
+        plt.show()
+
+        return fig, axis
+
+    def get_state(self):
+        """게임의 상태를 가져옵니다.
+
+        게임의 상태는 screen_width x screen_height 크기로 각 위치에 대한 상태값을 가지고 있으며,
+        빈 공간인 경우에는 0, 사물이 있는 경우에는 1이 들어있는 1차원 배열입니다.
+        계산의 편의성을 위해 2차원 -> 1차원으로 변환하여 사용합니다.
+        """
+        state = np.zeros((self.screen_width, self.screen_height))
+
+        state[self.car["col"], self.car["row"]] = 1
+
+        if self.block[0]["row"] < self.screen_height:
+            state[self.block[0]["col"], self.block[0]["row"]] = 1
+
+        if self.block[1]["row"] < self.screen_height:
+            state[self.block[1]["col"], self.block[1]["row"]] = 1
+
+        return state.reshape((-1, self.screen_width * self.screen_height))
+
+    def draw_screen(self):
+        title = " Avg. Reward: %d Reward: %d Total Game: %d" % (
+                        self.total_reward / self.total_game,
+                        self.current_reward,
+                        self.total_game)
+
+        self.axis.clear()
+        self.axis.set_title(title, fontsize=12)
+
+        road = patches.Rectangle((self.road_left - 1, 0), self.road_width + 1, self.screen_height, linewidth=0, facecolor="#333333")
+        # 자동차, 장애물들을 1x1 크기의 정사각형으로 그리도록하며, 좌표를 기준으로 중앙에 위치시킵니다.
+        # 자동차의 경우에는 장애물과 충돌시 확인이 가능하도록 0.5만큼 아래쪽으로 이동하여 그립니다.
+        car = patches.Rectangle((self.car["col"] - 0.5, self.car["row"] - 0.5), 1, 1, linewidth=0, facecolor="#00FF00")
+        block1 = patches.Rectangle((self.block[0]["col"] - 0.5, self.block[0]["row"]), 1, 1, linewidth=0, facecolor="#0000FF")
+        block2 = patches.Rectangle((self.block[1]["col"] - 0.5, self.block[1]["row"]), 1, 1, linewidth=0, facecolor="#FF0000")
+
+        self.axis.add_patch(road)
+        self.axis.add_patch(car)
+        self.axis.add_patch(block1)
+        self.axis.add_patch(block2)
+
+        self.fig.canvas.draw()
+        # 게임의 다음 단계 진행을 위해 matplot 의 이벤트 루프를 잠시 멈춥니다.
+        plt.pause(0.0001)
+
+    def reset(self):
+        """자동차, 장애물의 위치와 보상값들을 초기화합니다."""
+        self.current_reward = 0
+        self.total_game += 1
+
+        self.car["col"] = int(self.screen_width / 2)
+
+        self.block[0]["col"] = random.randrange(self.road_left, self.road_right + 1)
+        self.block[0]["row"] = 0
+        self.block[1]["col"] = random.randrange(self.road_left, self.road_right + 1)
+        self.block[1]["row"] = 0
+
+        self.update_block()
+
+    def update_car(self, move):
+        """액션에 따라 자동차를 이동시킵니다.
+
+        자동차 위치 제한을 도로가 아니라 화면의 좌우측 끝으로 하고,
+        도로를 넘어가면 패널티를 주도록 학습해서 도로를 넘지 않게 만들면 더욱 좋을 것 같습니다.
+        """
+
+        # 자동차의 위치가 도로의 좌측을 넘지 않도록 합니다: max(0, move) > 0
+        self.car["col"] = max(self.road_left, self.car["col"] + move)
+        # 자동차의 위치가 도로의 우측을 넘지 않도록 합니다.: min(max, screen_width) < screen_width
+        self.car["col"] = min(self.car["col"], self.road_right)
+
+    def update_block(self):
+        """장애물을 이동시킵니다.
+
+        장애물이 화면 내에 있는 경우는 각각의 속도에 따라 위치 변경을,
+        화면을 벗어난 경우에는 다시 방해를 시작하도록 재설정을 합니다.
+        """
+        reward = 0
+
+        if self.block[0]["row"] > 0:
+            self.block[0]["row"] -= self.block[0]["speed"]
+        else:
+            self.block[0]["col"] = random.randrange(self.road_left, self.road_right + 1)
+            self.block[0]["row"] = self.screen_height
+            reward += 1
+
+        if self.block[1]["row"] > 0:
+            self.block[1]["row"] -= self.block[1]["speed"]
+        else:
+            self.block[1]["col"] = random.randrange(self.road_left, self.road_right + 1)
+            self.block[1]["row"] = self.screen_height
+            reward += 1
+
+        return reward
+
+    def is_gameover(self):
+        # 장애물과 자동차가 충돌했는지를 파악합니다.
+        # 사각형 박스의 충돌을 체크하는 것이 아니라 좌표를 체크하는 것이어서 화면에는 약간 다르게 보일 수 있습니다.
+        if ((self.car["col"] == self.block[0]["col"] and
+             self.car["row"] == self.block[0]["row"]) or
+            (self.car["col"] == self.block[1]["col"] and
+             self.car["row"] == self.block[1]["row"])):
+
+            self.total_reward += self.current_reward
+
+            return True
+        else:
+            return False
+
+    def proceed(self, action):
+        # action: 0: 좌, 1: 유지, 2: 우
+        # action - 1 을 하여, 좌표를 액션이 0 일 경우 -1 만큼, 2 일 경우 1 만큼 옮깁니다.
+        self.update_car(action - 1)
+        # 장애물을 이동시킵니다. 장애물이 자동차에 충돌하지 않고 화면을 모두 지나가면 보상을 얻습니다.
+        escape_reward = self.update_block()
+        # 움직임이 적을 경우에도 보상을 줘서 안정적으로 이동하는 것 처럼 보이게 만듭니다.
+        stable_reward = 1. / self.screen_height if action == 1 else 0
+        # 게임이 종료됐는지를 판단합니다. 자동차와 장애물이 충돌했는지를 파악합니다.
+        gameover = self.is_gameover()
+
+        if gameover:
+            # 장애물에 충돌한 경우 -2점을 보상으로 줍니다. 장애물이 두 개이기 때문입니다.
+            # 장애물을 회피했을 때 보상을 주지 않고, 충돌한 경우에만 -1점을 주어도 됩니다.
+            reward = -2
+        else:
+            reward = escape_reward + stable_reward
+            self.current_reward += reward
+
+        if self.show_game:
+            self.draw_screen()
+
+        return reward, gameover