読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL, Montezuma】Room18, 19に到達しました

DRL, Montezuma Montezuma's Revenge 機械学習 DRL Python ITのお勉強

最近は、定職についたため、なかなかDeepLearningのソースコードをいじる機会がなく、同じソースコードのままで、色々とパラメーターを変えて試しています。その結果、新たに、Room18、19に到達しましたので、動画を下記にアップしました。
youtu.be

DeepMindの論文に載っていない到達Roomとしては、これで下記のようになりました。ピンクの部分は報告済で、黄色い部分が今回到達したRoomです。
f:id:Itsukara:20161112181124p:plain

なお、色々とパラメーターを変えても、移動平均SCOREの最高点は1300点どまりで、ほとんどの場合は、600点ぐらいです。そろそろ限界かと思っていたのですが、参考にしていた論文がv2になり、少し情報が増えたので、その情報を元に、更にパラメーターを変えて試して見る予定です。

ちなみに、実験環境は、Google Cloud Platformの無料枠($300まで60日間まで無料で利用可)です。格安なGCP Preemptible VM Instanceを最大限に活用することにより、4CPUのVM2を8台利用し、それぞれで学習を行っています。なお、Preemptible VMなので、これだけ使っても、1日$6.5程度で済みます。具体的には、次のような感じで使ってます。
f:id:Itsukara:20161112175606p:plain

GCP00は、過去の学習曲線を保管し、いつでも見れるようにしています。
http://104.155.42.5/で、どなたでも見れますので、興味のある方は参照ください。

4CPUとはいえ、GPUが無いため結構遅く、1回の実験には1週間ぐらい掛かります。約1周間の実験が終わる度に、1つのディレクトリにまとめ保管していましたが、Webに置いたほうがいつでも見れるので、GCPの最小構成のVM($2/月)に入れることにした次第です。それぞれのディレクトリの下にある00index.htmlというファイルを開くと、その回の実験結果(学習曲線と到達room)が見れます。

ただし、GCPの無料期間は12月7日で終了しますので、それ以降は、上記URLにはアクセスできませんので、あしからず。

入口

f:id:Itsukara:20161113005740p:plain

1階層下

f:id:Itsukara:20161113005844p:plain

2階層下

f:id:Itsukara:20161113010145p:plain