Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

DRL

July Tech Fest 2017での発表資料をアップ

本日のJuly Tech Fest 2017での発表資料を、SlideShare にアップしました。タイトルは以前と変わりませんが、これまでDo2dle勉強会、WBAI、国際学会(Multimedia & Artificial Intelligence)で発表した資料の集大成となります。 強化学習による 「Montezuma's…

海外のイベントでの講演:行くことに決めました

海外のイベントから講演依頼があった下記の件、参加することに決めました。先ほどRegistrationを済ませたところです。itsukara.hateblo.jp

海外のイベントから講演依頼あり:講演価値あるか確認中

7月にポルトガルのリスボンで開催されるMultimedia & Artificial Intelligence 2017というイベントにスピーカーとして招待したいと連絡が来たのですが、単なる釣りか、参加する価値があるか、確認中です。誰か、このイベントのことを聞いたことがある方がい…

【DRL,Montezuma】まずは現状版コードを試行中

今後、Montezuma's Revengeの強化学習に、色々と機能を追加してみようと思いますが、ここ何ヶ月も現状版コードを動かしたことがないので、まずは、現状版コードを動かし、ある程度学習が進んだ状態でのcheckpointを取ってます。PCの画面としては、下記のよう…

【DRL,Montezuma】当方の結果が論文で参照されました 嬉!

論文(https://arxiv.org/abs/1704.05539)で、OpenAI GymのMontezum's Revengeでの当方の結果が引用されました。とても嬉しいです! 下記(p.9)のItsukaraです。上記は、OpenAI GymのMontezum's Revenge(下記)からの抜粋です。 gym.openai.com当方は、2016/10/1…

【DRL,Montezuma】スライド(日本語版)を更に更新

強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)、SIG-WBAオフ会で本日発表したのを機に更新したのですが、状態のループ(時間を考慮しない影響)の説明が不十分だったので追記しました。 強化学習による 「Montezuma's Revenge」…

【DRL,Montezuma】ROOM#7訪問とROOM#1 killの関係

2つ前の記事で、ROOM#7の訪問が増えることで、ROOM#1の学習状態に影響を与えるようだと書きましたが、現在行っている学習でも、同じようなことが起こっているようなので、ご報告します。正確な理由は不明ですが、なぜか、これらの間には相関が大きいように見…

【DRL,Montezuma】学習状況確認のためのツール

Montezuma's Revengeの強化学習において、平均スコアだけでは、学習状況が良くわからないので、各種状況を表示するツールを追加しました(plot2.pyとall-plot)。これらを用い、下記のような感じで学習状況をモニタしながら実験を進めています。ご参考まで。 …

【DRL,Montezuma】Scoreが0になり回復しない原因の分析

Montezua's Revengeの強化学習で、下記のように、Scoreが0になり回復しない場合がありましたが、原因を少し分析してみました。 Scoreが0になり回復しない状況調査 Scoreが0になった後は、ROOM#1でPanama Joeが死にまくるのかと思っていましたが、これは誤っ…

【DRL,Montezuma】ALE環境でLaser Barrier通過!

あけましておめでとうございます。 相変わらず、Montezuma's Revengeの強化学習実験を行っています。 GCPから自宅PCへ 昨年は、GCP (Google Cloud Platform)の無料枠($300、3ヶ月以内)を使い、格安のPreemptible VMを活用し、一度に8個の学習を行っていたの…

【DRL,Montezuma】GCPアカウントが停止し続行不能。残念!

DRL用にGoogle Cloud Platformの無料試用枠を使ってましたが、サンフランシスコに行っている間、何故か、学習が進まなくなり、帰国後に確認したところ、Googleから通告が来ていて、GCPアカウントが削除されていました。やはり、無料試用枠の複数回利用は、検…

【DRL, Montezuma】スライド再更新+再々更新

Montezuma's Revengeのスライド更新時に、OpenAI Gymの方から結構詳しく聞かれた「pseudo-countの実装方法」を書き忘れたので、再更新しました。ソースを読めば分かると思っていましたが、それほどわかりやすいソースでもないので... (この後、誤りに気付き…

OpenAIのInterviewでのフィードバック受けスライド更新

現在、サンフランシスコに来ており、昨日、Montezuma's Revengeの強化学習の件で、OpenAIのInterviewを受けました。いろいろと質問があり、そこで答えたことや、それ以外も含めてスライドの内容を追加・修正いたしました。ご興味のある方はご覧ください。ち…

【DRL, Montezuma】thread毎多様性の効果確認!(12/7修正)

A3Cをベースにした環境で、Montezuma's RevengeのDeep Reinforcement Learningを行っていますが、thread毎に多様性を持たせた効果が示せました。(12/7訂正)下記サイト掲載の学習状況をご覧ください。 http://52.193.119.202/montezuma-x/00index.html 上記サ…

【DRL, Montezuma】これまでの最高得点3600点取得動画

Thread毎の環境の多様性を高めた実験で、これまでの最高得点である3600点を取得した動画が撮れました。結構良い動きをしているように見えます。ただ、ライフが減っても気にしない動きをしています。ライフが減るイベントをうまく回避できれば、もっと先まで…

【DRL, Montezuma】到達部屋追加でスライド更新(20161205)

懲りずに続けているMontezuma's Revengeの実験ですが、到達部屋が1つ増えましたので(下図最下段の右端)、スライドを更新しました。下記がこれまでの到達部屋です。なお、Thread毎の環境の多様性を高めた実験の途中結果を下記に置きました。今のところ、SCOR…

【DRL, Montezuma】thread毎にパラーメータを変える機能を追加

VMを1台に限定すればGCPを後数日使える想定でしたが、今朝、クレジットを使い切りました。1日毎に課金をチェックするらしく、残りクレジットが420円であることに気がついた時には、既に、残りクレジットがもっと少なかったようです。何も実験しないのは寂し…

【DRL, Montezuma】GCPの無料試用期間がほぼ終了

GCPの無料試用期間がほぼ終了したので、最後の学習結果を下記に置きました。 http://52.193.119.202/montezuma-v3/00index.html 正確には、残り日数が6日で、残りクレジットが420円となりました。上記学習結果を見ると、gcp10だけは今後も訪問部屋が増える可…

【DRL, Montezuma】スライドを再更新

相変わらず続けているMontezuma's Revengeの実験ですが、pseudo-countを各部屋ごとに持つように変更したところ、到達部屋が1つ増えましたので(ROOM 20、DeepMindの論文には未記載)、スライドを更新しました(p.16、p.18、p.20を微修正。p.19を追加)。なお、p…

【DRL, Montezuma】スライドを更新

到達した部屋が以前よりもかなり増えているので、スライドを更新しました(p.18)。また、到達した部屋に至る動画もスライドの途中に追加しました。 日本語版 DeepMind論文(2016/6) 「Unifying Count-Based Exploration and Intrinsic Motivation 」 記載のPse…

【DRL, Montezuma】Room18, 19に到達しました

最近は、定職についたため、なかなかDeepLearningのソースコードをいじる機会がなく、同じソースコードのままで、色々とパラメーターを変えて試しています。その結果、新たに、Room18、19に到達しましたので、動画を下記にアップしました。 youtu.beDeepMind…

Montezuma's RevengeのRoom8到達動画が出来ました

以前の記事で、DeepMindが未到達の部屋Room3, 8, 9に到達できたことを書きましたが、前回の時点ではRoom8到達動画がありませんでした。今回、Room8の到達動画が得られましたので、youtubeにアップしました。ちなみに、Room8は、下記でピンクに塗られている一…

【DRL】Monezuma's Revengeの平均点が2000点に迫る

以前の記事を書いた後で、Montezuma's Revengeの平均点を上げようと色々ソースコードをいじっているため、以前に出た点数が出なくなっている可能性もあり、一応、以前の実行結果を再現させてみました。今回、100M stepsまで実行し、平均点が2000点にかなり近…

Azure Virtual Machinesはクローンが面倒で不便

以前の記事で、DRL(Deep Reinforcement Learning)の実験環境としてAzure Virtual Machines(以下Azure)の無料枠を使い始めたことを書きましたが、AzureではVirtual Machineのクローンがちょっと面倒だということが分かりました。googleで「azure virtual mach…

SlideShareは無料でアクセス詳細分析ができて凄い!

9/15の記事で、これまで本ブログに書いてきた内容をSlideShareに載せたことを書きましたが、今回初めてSlideShareにアップロードして、SlideShareの詳細分析機能の素晴らしさに驚いています。下記は、アクセス数のグラフです。ある程度関心を持って頂き、98…

【DRL】成功体験の亡霊に囚われたPanama Joe

前回記事で、Montezuma's RevengeのDRL(A3C+Pseudo-Code+独自手法(On-Highscore-Learning)による評価で平均点1500点を超えたことを報告しましたが、時間のない中で出来るだけ速く学習させすぎたためか、過学習になっている事が分かりました。具体的には、平…

【DRL】Monezuma's Revengeで平均点が1500点を超えました

前々回記事に記載の通り、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで最難関ゲームの1つであるMontezuma's Revengeに対して、高得点を取得するための挑戦を行っています。先週前半に評価開始したものが…