DRL, Montezuma
2年ぐらい前にやったMontezuma's Revengeの強化学習の実験結果を入れていたhttpサーバーの「AWS無料お試し期間」が切れたので、期限がないGoogle Cloud Platform無料枠に引っ越した*1。httpサーバーのURLはSlideShareのスライドにも書いてたので、スライド中…
会社で自分のブログ記載の情報を使いたかったので、当方のハンドル名「itsukara」で検索したら、自分のブログやGithubがトップ3に載っていた。 試しに、スマホのchromeで検索したら、1位と2位だった。 スマホのchromeでの検索結果 非常に嬉しかったので、思…
本日のJuly Tech Fest 2017での発表資料を、SlideShare にアップしました。タイトルは以前と変わりませんが、これまでDo2dle勉強会、WBAI、国際学会(Multimedia & Artificial Intelligence)で発表した資料の集大成となります。 強化学習による 「Montezuma's…
今後、Montezuma's Revengeの強化学習に、色々と機能を追加してみようと思いますが、ここ何ヶ月も現状版コードを動かしたことがないので、まずは、現状版コードを動かし、ある程度学習が進んだ状態でのcheckpointを取ってます。PCの画面としては、下記のよう…
論文(https://arxiv.org/abs/1704.05539)で、OpenAI GymのMontezum's Revengeでの当方の結果が引用されました。とても嬉しいです! 下記(p.9)のItsukaraです。上記は、OpenAI GymのMontezum's Revenge(下記)からの抜粋です。 gym.openai.com当方は、2016/10/1…
強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)、SIG-WBAオフ会で本日発表したのを機に更新したのですが、状態のループ(時間を考慮しない影響)の説明が不十分だったので追記しました。 強化学習による 「Montezuma's Revenge」…
2つ前の記事で、ROOM#7の訪問が増えることで、ROOM#1の学習状態に影響を与えるようだと書きましたが、現在行っている学習でも、同じようなことが起こっているようなので、ご報告します。正確な理由は不明ですが、なぜか、これらの間には相関が大きいように見…
Montezuma's Revengeの強化学習において、平均スコアだけでは、学習状況が良くわからないので、各種状況を表示するツールを追加しました(plot2.pyとall-plot)。これらを用い、下記のような感じで学習状況をモニタしながら実験を進めています。ご参考まで。 …
Montezua's Revengeの強化学習で、下記のように、Scoreが0になり回復しない場合がありましたが、原因を少し分析してみました。 Scoreが0になり回復しない状況調査 Scoreが0になった後は、ROOM#1でPanama Joeが死にまくるのかと思っていましたが、これは誤っ…
あけましておめでとうございます。 相変わらず、Montezuma's Revengeの強化学習実験を行っています。 GCPから自宅PCへ 昨年は、GCP (Google Cloud Platform)の無料枠($300、3ヶ月以内)を使い、格安のPreemptible VMを活用し、一度に8個の学習を行っていたの…
DRL用にGoogle Cloud Platformの無料試用枠を使ってましたが、サンフランシスコに行っている間、何故か、学習が進まなくなり、帰国後に確認したところ、Googleから通告が来ていて、GCPアカウントが削除されていました。やはり、無料試用枠の複数回利用は、検…
最近は、定職についたため、なかなかDeepLearningのソースコードをいじる機会がなく、同じソースコードのままで、色々とパラメーターを変えて試しています。その結果、新たに、Room18、19に到達しましたので、動画を下記にアップしました。 youtu.beDeepMind…
前回記事に記載のように、GCPの格安な「Preemptible VM Instance」を使って、独自機能付DRL(A3C+Pseudo-count+On-Highscore-Learning(OHL)の実験中です。具体的には、Montezuma's Revengeへの適用実験をしていますが、Preemptible VM InstanceによるVM再起動…