Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL】成功体験の亡霊に囚われたPanama Joe

DRL Montezuma's Revenge 機械学習 Python

前回記事で、Montezuma's RevengeのDRL(A3C+Pseudo-Code+独自手法(On-Highscore-Learning)による評価で平均点1500点を超えたことを報告しましたが、時間のない中で出来るだけ速く学習させすぎたためか、過学習になっている事が分かりました。

具体的には、平均点が1500を超えたcheckpointsデータを元にプレイ画像を生成したところ、35回中17回で2500点になりましたが、2500点をとったのはプレイ時間5分のうち最初の1〜2分で、残りの3〜4分は、Montezuma's RevengeのメインキャラであるPanama Joeが、最後の部屋の左側を彷徨い続けるだけでした(17回全て)。参考までに、下記に、その動画の1つを載せます。
youtu.be

彷徨い続けている場所では、過去にSWORDを取得して点数を得て、その後で上の部屋でSKULLを倒して更に点数をとりました。そんため、最後の部屋の左側近辺を含んだ状態は評価点数が高いのだと思います。つまり、点数をとれる目標が既に無くなっているにも関わらず、Panama Joeは、この場所から始まった成功体験の亡霊に囚われているということだと思います。

こうやってみると、人間がやっていることも、AIが育てた単純なキャラの行動と、あまり変わらない気がしてきました。

今後の進め方

成功体験の亡霊から逃れるためにはどうやったらよいか、思案中です。単純に学習履歴長を短くして学習を遅くすることも考えられますし、もっとランダム性を上げることも考えられます。ただ、どれをやるにしても、学習を試すと余りにも時間がかかりそうなので、対応策の方向性をもう少しじっくりと考えてから、次に進む予定です。