Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL,Montezuma】まずは現状版コードを試行中

今後、Montezuma's Revengeの強化学習に、色々と機能を追加してみようと思いますが、ここ何ヶ月も現状版コードを動かしたことがないので、まずは、現状版コードを動かし、ある程度学習が進んだ状態でのcheckpointを取ってます。

PCの画面としては、下記のような感じです。
f:id:Itsukara:20170425003850p:plain

スマホを使って、どこででも学習状況を見れるように、学習の途中状況を、下記に10分に1回の割合で自動アップロードしてます。ご参考まで。
http://54.238.214.79/ALE/montezuma-ya/00index.html

なお、現在試しているのは、ALEで、学習履歴長(TES)=60、β=0.020、LSTM、frameスキップ=7です。一度2200点ぐらいまで行きましたが、60M stepの直前で400点まで落ちました。

また、最初の部屋には鍵が1つしか無いので、ダンジョンの右か左の1つしか行けないのですが、今回は右で学習が進んでいます。

更に、まだ、ROOM#7のLaser Barrierを突破できていません。今後も突破できない可能性が高いですが、100M Step位までは試してみようと思います。

当方のPCでは1日で25M steps程度しか学習が進まないので、100M stepまでは、後1〜2日間ぐらい掛かりそうです。

プライムニュースで東大の松尾先生が話してましたが、長くて1週間位掛かるような学習も、グーグルやフェースブックでは30秒から1分ぐらいで結果が返ってくるようです。羨ましいですね。下記、34分ぐらいからご覧ください。
https://www.youtube.com/watch?v=7ptsRZ3NcwM

なお、海外では、人工知能関連で別の会社に移るとき、給料に加え計算環境が重要となっているようです。また、日本と海外での計算環境の差は、日本からの頭脳流出にも繋がっているようです。

シンギュラリティサロン参加:多目的遺伝的アルゴリズム

「シンギュラリティサロン@東京『第18回公開講演会』に参加しました。

「実用化が進む進化計算とその応用」というタイトルで、東北大学流体科学研究所・所長/教授の大林 茂さんが発表されました。

流体力学や航空機(MRJ)、多目的遺伝的アルゴリズムなどに関し、(深く理解しているからこそ出来る)とても分かりやすいご説明で、素人でも雰囲気がつかめました。

f:id:Itsukara:20170422210714p:plain


また、設計空間の「見える化」の話は、色々な分野で役立つ考えと感じました。
f:id:Itsukara:20170422210830p:plain

ちなみに、発表者の大林さんの資料をWebで探したところ、下記が発表資料と非常に近いようですので、参考までにリンクを共有させて頂きます。上記は、下記スライドからの抜粋です。

発表後に、衝撃波を減らす形状に関し質問しました。大林さんのご説明を聞いて、素人考えでは、下面を平面にすれば良いと思い質問しましたが、それでは上面からの圧力のために上手く行かないとのご回答でした。

これに関し、下が平面で上面が曲面を持った断面を回転させて円筒状や楕円円筒上にすれば、衝撃波を殆ど減らせる気がしたのですが... 素人ながらも、もう少し食い下がって詳しく伺えば、もっと合点がいって良かったと反省してます。ちなみに、下記の形だと、どこで揚力を得るか(低速では円筒を上でパカット割った形にして翼の代わりにする? 垂直離着陸?)、どこにエンジンを付けるか(真ん中の空洞にエンジンを付ける?)、どこに乗るかなど(円筒の内側に凹んだところに乗る? 円筒の上に乗る?)、など難しそうですが...

f:id:Itsukara:20170422211908p:plain

【DRL,Montezuma】当方の結果が論文で参照されました 嬉!

論文(https://arxiv.org/abs/1704.05539)で、OpenAI GymのMontezum's Revengeでの当方の結果が引用されました。とても嬉しいです!  下記(p.9)のItsukaraです。

f:id:Itsukara:20170422083534p:plain

上記は、OpenAI GymのMontezum's Revenge(下記)からの抜粋です。
gym.openai.com

当方は、2016/10/13にOpenAI GymのMontezum's Revengeで1位になったことで、サンフランシスコのOpenAIに無料で行く機会があり、サンフランシスコの観光をとても楽しむことができました。下記は、観光中に撮ったゴールデン・ゲート・ブリッジの写真です。

f:id:Itsukara:20170422084520j:plain

上記、ゴールデン・ゲート・パークでレンタル自転車を借り、海岸まで走り、クリフ・ハウスを経てランズ・エンドに行き、ランズ・エンドから海沿いに眺めの良い散歩道があったので、そこを散歩した際に撮影したものです。この散歩道、持って行ったガイドブック(地球の歩き方)には書かれていなかったのですが、結構人気みたいで、沢山の人が歩いていました。
f:id:Itsukara:20170422090843p:plain

船で行ったアルカトラズ島(サンフランシスコ湾の真ん中にある)も、とても眺めが良かったので、そこから撮ったゴールデンゲートブリッジと市街地の写真も載せておきます。
f:id:Itsukara:20170422091320j:plain

なお、OpenAI GymのMontezum's Revengeは、今年3/8にpkumusicさんが1位になり、当方は約5か月継続した1位から脱落しました。この期間は再就職したばかりでとても忙しくて、人工知能関連は何もやっていなかったので、点数は全く上がらず、脱落して当然ではあります。

再記になりますが、pkumusicさんですが、github(下記)で当方のgithubへのリンクを張ってくれているので、参考にしてくれたのかも知れません。


最近、少し時間ができた来たので、上記論文や、pkumusicさんのコードなど、もう少しちゃんと読んでみようと思います。

ちなみに、下記、Montezuma's Revenge関連でブログに書いたことをスライドに纏めたものです。ご参考まで。

www.slideshare.net

【DRL,Montezuma】スライド(日本語版)を更に更新

強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)、SIG-WBAオフ会で本日発表したのを機に更新したのですが、状態のループ(時間を考慮しない影響)の説明が不十分だったので追記しました。

goo.gl

【DRL,Montezuma】スライド(日本語版)を更新しました

強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)がかなり古かったので、SIG-WBAオフ会で本日発表したのを機に更新しました。

www.slideshare.net

【DRL,Montezuma】既に一位ではなくなっていた、残念

OpenAI GymのMontezuma's Revengeで一位を取り、昨年の12月にサンフランシスコのOpenAIに説明に行く機会がありましたが、久しぶりにOpenAI Gymのサイトを見たところ、今年3月8に、pkumusicさんが1位を取り、当方は既に1位ではなくなっていました。

当方のスコア
現在の1位のスコア

ここ半年ほど、Deep Learning関連で何もやっていなかったので、当然と言えば当然ですが、残念です。

ちなみに、現在1位のpkumusicさんのGithubは下記のようです。
pkumusicさんのGithub

よく見ると、当方のGithubも参照しているので、ソースコードは見ていないのですが、参考にしてくれているのかもしれません。この点は、とても嬉しいです。
当方のGithug

ちなみに、Githubの記述によると、pkumusicさんは、CMUの学生のようです。

DNC (Differentiable Neural Computers)の発表を聴講

昨日参加した人工知能関連イベント(下記)、DNC (Differentiable Neural Computers)に関し発表と活発な議論があり、とても勉強になりました。また、久しぶりに人工知能関連の会話ができ、非常に楽しめました。
https://do2dle.connpass.com/event/53552/

今回、DNCについて分かりやすい紹介スライド(下記)を作成して公開されている森山さんが発表し、別の会でDNCの発表をされた八島さんや、東京女子大学の浅川先生、数理先端技術研究所の生島さんなどが参加し、活発な議論が行われ、DNCについての理解がかなり深まりました。

www.slideshare.net

DNCは、既存技術である履歴付きコンテンツメモリ機能を、微分可能な形式で実現してNeural Networkに組み入れることで、時系列的に順番を持って判断・実行する必要があるアルゴリズムの自動発見・学習や、学習内容の長期的は保持ができる点が注目されています。

ただ、名前が「Differentiable neural computers」と複数形になっている通り、本論文は、既存アルゴリズムや手法を微分可能にしてNeural Networkの枠組みに組み入れる事例の1つであり、今後、更に色々なアルゴリズムや手法がNeural Networkと組み合わせられていく序曲ではないか、との議論となりました。

DeepMindは、常に、発表すべき内容のストックをたくさん持っており、発表時期を調整しながら公開してきているので、今後、DNCをさらに発展させた論文が出てくるという印象が強まりました。

発表後は、参加者10名程度で懇親会があり、久しぶりにとても楽しい時間を過ごすことができました。