【DL.A3C+pseudo-count】Montezumaで5つの部屋に到達!!
8/26の記事で記載しましたように、Deep LearningのA3C論文再現コードに独自の改造を加えて色々試しています。
A3Cだけでは殆ど点数が取れないゲーム「Montezuma's Revenge」で高得点を取ることが現在の目標です。A3C論文再現コードを書いたmiyosudaさんから、Montezuma' Revengeで高得点を取った論文を教えて頂いたので、一度通読完了しました。
まだ理解が不十分なところもありますが、とりあえず、論文に書かれた手法を独自改造コード*1に取り入れて実験を開始したところです。
実験の手応えは十分あり、僅か9M STEPSで、Montezuma's Revengeの5つの部屋に到達することが出来ました。下記が到達した部屋のマップで、緑に塗られた部分が到達した部屋です。
下記が、それぞれの部屋に到達した動画です。
Room1からRoom0に到達
Room1からRoom2,6,7に到達
まだ、最高点数は400点止まりですが、20〜30M STEPS走らせれば、もっと点数が取れるのではないかと期待しています。結果が出たら、再度、ご報告します。
かなり上手く行っているように思えたので、実験途中ながら、報告させていただきました。