【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。

OHLで、残ったライフが多いほど学習履歴長を伸ばす機能を入れて、色々なオプションで試したのですが、平均点数が一番上がったのは、ゲーム画像処理を「平均化」のみにした版でした。下記が、その学習曲線です。80M STEPで平均1000を超え、84M STEPで1500点近くまで上がりました。
f:id:Itsukara:20160912224611p:plain

ただ、84M以降、平均点が急激に減少しています。また、最高得点は2600点で、1回しか取れていません。訪問した部屋は、ROOM#0,1,2,4,6,7で、以前と変わりません。つまり、2500点を取れる確率が高まったものの、探索範囲は広がっていません。A3Cをベースにしたコードでは、これぐらいが限界かもしれません。

新しく入れた機能と、評価に使ったコマンド(run-option)の最新版、84M STEPでのcheckpointsを、githubにアップしました。84M STEPのチェックポイントをベースに、プレイ動画を作成したり、パラメーターを変えて更に学習させることも可能です。なお、学習に使ったコマンドは「run-option montezuma-b-rap000-avg」です。
github.com

*1:強化学習の対象としての最難関ということ