読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DL.A3C+pseudo-count】Montezumaで5つの部屋に到達!!

8/26の記事で記載しましたように、Deep LearningのA3C論文再現コードに独自の改造を加えて色々試しています。

A3Cだけでは殆ど点数が取れないゲーム「Montezuma's Revenge」で高得点を取ることが現在の目標です。A3C論文再現コードを書いたmiyosudaさんから、Montezuma' Revengeで高得点を取った論文を教えて頂いたので、一度通読完了しました。

まだ理解が不十分なところもありますが、とりあえず、論文に書かれた手法を独自改造コード*1に取り入れて実験を開始したところです。

実験の手応えは十分あり、僅か9M STEPSで、Montezuma's Revengeの5つの部屋に到達することが出来ました。下記が到達した部屋のマップで、緑に塗られた部分が到達した部屋です。
f:id:Itsukara:20160829114638p:plain

下記が、それぞれの部屋に到達した動画です。

Room1からRoom0に到達

youtu.be

Room1からRoom2,6,7に到達

youtu.be

まだ、最高点数は400点止まりですが、20〜30M STEPS走らせれば、もっと点数が取れるのではないかと期待しています。結果が出たら、再度、ご報告します。

かなり上手く行っているように思えたので、実験途中ながら、報告させていただきました。

*1:最新版コードは、ある程度評価が進んだらGithubにUP予定です