強化学習
  ・試行錯誤の過程から自立的に学習する。
  ・エージェントが得られる報酬により行動を決定、よい行動を学習
  ・データから最適な解(ルールやアルゴリズムなど)を見つける。
  ・行動により部分的に正解が与えられる。

当初
  ・エージェントが置かれている状況(S)
  ・エージェントが行う行動(A)
  ・環境から得られる報酬(r(t)=R(st,at,st+1))
  ・ある状態stで、ある行動atを起こし、ある状態st+1になる確率(条件付き確率)(P(st+1|st,at))
  ・エージェントがどんな行動をどのくらいの確率で行うかを表す関数(π:S×A→[0,1])

ゴール
  ・報酬が最大になるような方策を見つける。
  ・時間割引された累積報酬例
Gt := ∑(i=0, ∞) γ(i)*r(t+1+i) (γ∈[0,1])
tは時間(STEP数)、γは時間割引率

マルコフ決定過程(MDP)
  ・「次の状態への確率は現在の状態だけで決まる。」という条件を満たすモデル
<S,A,P,R,γ>

行動価値関数
  ・ある状態である行動を行うことの価値を表す関数
Qπ(s,a)=E[Gt|st=s,at=a,π]
  ・最適行動価値関数(optimal action-value function)
行動価値関数による価値がもっとも高い行動を取り続ける。
方策と遷移状態確率が決まっていると、計算できる。

Q学習 (Q-Learning)
  ・最適行動価値関数を求めるための手法

DQN(Deep Q-Network)
  ・全ての状態とその時取りうる全ての行動のセットの行動価値を一旦ランダムに決める。
  ・初期状態からランダムに行動を決めて、得られた即時報酬と遷移先で推測される
  ・最大値の行動価値によって、遷移前の状態のを更新する。
  ・これを繰り返し、全ての状態とその時に取りうる全ての行動の行動価値を決定する。
  ・そして、必ずその状態における行動価値が最大になるような選択をする。