読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DL.A3C+pseudo-count】Montezuma途中(22M)経過良好

機械学習 Python ITのお勉強 Montezuma's Revenge

少し前の記事で記載しましたように、Deep LearningのA3C論文再現コードに、最新論文の手法(pseudo-count)を加えて改造し、トライアル実行中です。

途中経過ですが、非常に良好なので報告させていただきます。下記のように、18M STEPS辺りから平均点数が急激に上昇し、22M STEPSで、ほぼ300点に到達しました。
f:id:Itsukara:20160829180302p:plain

ちなみに、グラフの小さな青い点/線は、各ゲームプレイ毎の個別の得点で、緑の線は1000個の得点の移動平均です。最高得点は相変わらず500点止まりですが、0点が少なくなり、100点、400点、500点がかなり多くなっています。

改造プログラムでは(オプションで)点数が入ったらプレイ画面を保管するようにしていたのですが、やたら沢山保管されて、困っている状況です。オプションを変えて再実行したいところですが、一度止めると、メモリ上だけにあるデータが失われるため、とりあえず実行を継続しています。

止める際にメモリ上だけにあるデータ(pseudo-countで用いるカウントデータ)を保管し、再実行時に取り込むように改造しようかと思っています。

なお、Montezuma's Revengeでは24個の部屋があり、どの部屋が訪問済であるかを出力するコードは追加済で、Google Cloud Platformで実行中です。具体的には、自分のPC上で出力したcheckpointデータ(12M STEPS時点)を使って、実行しています。カウントデータは再度収集することになりますが、それなりの結果が出るのではないかと思います。

途中ですが、とりあえず報告まで。