Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL,Montezuma】まずは現状版コードを試行中

今後、Montezuma's Revengeの強化学習に、色々と機能を追加してみようと思いますが、ここ何ヶ月も現状版コードを動かしたことがないので、まずは、現状版コードを動かし、ある程度学習が進んだ状態でのcheckpointを取ってます。

PCの画面としては、下記のような感じです。
f:id:Itsukara:20170425003850p:plain

スマホを使って、どこででも学習状況を見れるように、学習の途中状況を、下記に10分に1回の割合で自動アップロードしてます。ご参考まで。
http://54.238.214.79/ALE/montezuma-ya/00index.html

なお、現在試しているのは、ALEで、学習履歴長(TES)=60、β=0.020、LSTM、frameスキップ=7です。一度2200点ぐらいまで行きましたが、60M stepの直前で400点まで落ちました。

また、最初の部屋には鍵が1つしか無いので、ダンジョンの右か左の1つしか行けないのですが、今回は右で学習が進んでいます。

更に、まだ、ROOM#7のLaser Barrierを突破できていません。今後も突破できない可能性が高いですが、100M Step位までは試してみようと思います。

当方のPCでは1日で25M steps程度しか学習が進まないので、100M stepまでは、後1〜2日間ぐらい掛かりそうです。

プライムニュースで東大の松尾先生が話してましたが、長くて1週間位掛かるような学習も、グーグルやフェースブックでは30秒から1分ぐらいで結果が返ってくるようです。羨ましいですね。下記、34分ぐらいからご覧ください。
https://www.youtube.com/watch?v=7ptsRZ3NcwM

なお、海外では、人工知能関連で別の会社に移るとき、給料に加え計算環境が重要となっているようです。また、日本と海外での計算環境の差は、日本からの頭脳流出にも繋がっているようです。