【DL.A3C+pseudo-count】Montezuma途中(22M)経過良好
少し前の記事で記載しましたように、Deep LearningのA3C論文再現コードに、最新論文の手法(pseudo-count)を加えて改造し、トライアル実行中です。
途中経過ですが、非常に良好なので報告させていただきます。下記のように、18M STEPS辺りから平均点数が急激に上昇し、22M STEPSで、ほぼ300点に到達しました。
ちなみに、グラフの小さな青い点/線は、各ゲームプレイ毎の個別の得点で、緑の線は1000個の得点の移動平均です。最高得点は相変わらず500点止まりですが、0点が少なくなり、100点、400点、500点がかなり多くなっています。
改造プログラムでは(オプションで)点数が入ったらプレイ画面を保管するようにしていたのですが、やたら沢山保管されて、困っている状況です。オプションを変えて再実行したいところですが、一度止めると、メモリ上だけにあるデータが失われるため、とりあえず実行を継続しています。
止める際にメモリ上だけにあるデータ(pseudo-countで用いるカウントデータ)を保管し、再実行時に取り込むように改造しようかと思っています。
なお、Montezuma's Revengeでは24個の部屋があり、どの部屋が訪問済であるかを出力するコードは追加済で、Google Cloud Platformで実行中です。具体的には、自分のPC上で出力したcheckpointデータ(12M STEPS時点)を使って、実行しています。カウントデータは再度収集することになりますが、それなりの結果が出るのではないかと思います。
途中ですが、とりあえず報告まで。