Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL,Montezuma】学習状況確認のためのツール

Montezuma's Revengeの強化学習において、平均スコアだけでは、学習状況が良くわからないので、各種状況を表示するツールを追加しました(plot2.pyとall-plot)。これらを用い、下記のような感じで学習状況をモニタしながら実験を進めています。ご参考まで。
f:id:Itsukara:20170108204146p:plain

各グラフの説明は下記です。なお、説明順は、左端から上下にグラフを辿ったものです。

  • *.r: 全てのScore(実reward)の分布と、その平均の推移
  • *.R: 凡例に示した番号の部屋(Room)の訪問頻度
  • *.RO: 凡例に示した番号の部屋(Room)でのOHL頻度
  • *.k: 凡例に示した部屋でのkill頻度
  • *.tes: 凡例に示したScoreを取得でのOHL学習長(Train-Episode-Steps)
  • *.lives: 凡例に示したScoreを取得した際の残りライフ数(lives)
  • *.s: 凡例に示したScoreを取得するまでのstep数
  • *.pr: 各ステップでのpseudo-rewardの分布とその平均値の推移
  • *.v: 各ステップでのvの値の分布とその平均値の推移