強化学習における最難関ゲームMontezuma's Revengeへ挑戦

Montezuma's Revengeとは、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで、つい最近(2016/6)まで殆ど得点が取れず、最難関ゲームの1つと位置づけられていました。

当方は、8月中旬頃から、Montezuma's Revengeで得点を上げようと取り組んできましたが、非常に関連が深い論文「[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation」が2016/6にDeepMindから出ていたことを知人から教えて頂き、論文に書かれた手法を組込んだコードで色々と評価しています。

論文にはDouble DQNとA3Cの結果が書かれており、Double DQNでは人間並みの得点(平均3500点程度)が出るようになった模様。ただ、A3Cでは平均273点と、まだまだです。

学習速度(steps/hour)という点では、A3Cが非常に優れており、A3Cで高得点が取れないか、試しています。2016/9/15現在、独自に入れたコードにより、DeepMindの平均273点を超え、平均1000点以上出ています。

このブログでは、上記含め、ここ1ヶ月ほど、Montezuma's Revengeの記事を書いてきましたが、断片的な情報が多かったので、分かりにくかったと思います。

昨日(9/14)、全脳アーキテクチャ勉強会のオフ会に参加し、本件についてご紹介しました。その際に使ったプレゼン資料をslideshareにアップしましたので、是非ご覧ください。

DeepMind論文(2016/6) 「Unifying Count-Based Exploration and Intrinsic Motivation 」記載のPseudo-count を用いたMontezuma's Revenge の評価 from 孝好飯塚

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

強化学習における最難関ゲームMontezuma's Revengeへ挑戦