読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

機械学習

海外のイベントでの講演:行くことに決めました

海外のイベントから講演依頼があった下記の件、参加することに決めました。先ほどRegistrationを済ませたところです。itsukara.hateblo.jp

「『人工』知能と知能を考えるための61冊」を読む #3 参加

2017/5/12に開催された"「『人工』知能と知能を考えるための61冊」を読む #3"に参加しました。 peatix.comスクエアエニックスのゲームAI開発責任者である三宅陽一郎さんが、自分と出来るだけ分野が離れた人と話したいと出版社にお願いし、弁護士の水野祐さん…

海外のイベントから講演依頼あり:講演価値あるか確認中

7月にポルトガルのリスボンで開催されるMultimedia & Artificial Intelligence 2017というイベントにスピーカーとして招待したいと連絡が来たのですが、単なる釣りか、参加する価値があるか、確認中です。誰か、このイベントのことを聞いたことがある方がい…

【DRL,Montezuma】まずは現状版コードを試行中

今後、Montezuma's Revengeの強化学習に、色々と機能を追加してみようと思いますが、ここ何ヶ月も現状版コードを動かしたことがないので、まずは、現状版コードを動かし、ある程度学習が進んだ状態でのcheckpointを取ってます。PCの画面としては、下記のよう…

【DRL,Montezuma】当方の結果が論文で参照されました 嬉!

論文(https://arxiv.org/abs/1704.05539)で、OpenAI GymのMontezum's Revengeでの当方の結果が引用されました。とても嬉しいです! 下記(p.9)のItsukaraです。上記は、OpenAI GymのMontezum's Revenge(下記)からの抜粋です。 gym.openai.com当方は、2016/10/1…

【DRL,Montezuma】スライド(日本語版)を更に更新

強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)、SIG-WBAオフ会で本日発表したのを機に更新したのですが、状態のループ(時間を考慮しない影響)の説明が不十分だったので追記しました。 強化学習による 「Montezuma's Revenge」…

【DRL,Montezuma】スライド(日本語版)を更新しました

強化学習による「Montezuma's Revenge」への挑戦についてのスライド(日本語版)がかなり古かったので、SIG-WBAオフ会で本日発表したのを機に更新しました。 強化学習による 「Montezuma's Revenge」への挑戦 from 孝好 飯塚 www.slideshare.net

DNC (Differentiable Neural Computers)の発表を聴講

昨日参加した人工知能関連イベント(下記)、DNC (Differentiable Neural Computers)に関し発表と活発な議論があり、とても勉強になりました。また、久しぶりに人工知能関連の会話ができ、非常に楽しめました。 https://do2dle.connpass.com/event/53552/今回…

PaintsChainerが爆速になっていた

http://itsukara.hateblo.jp/entry/2017/01/29/064926:embed:先週の記事で書いた線画着色(PaintsChanier)の件、久しぶりに最新版をダウンロードして試してみたら、当方の貧弱なGPU RAM(2GB)でも動くようになっており、サイズが500x500位の画像では3秒ぐらい…

線画着色最新版が妙に青みがかっている

線画着色の件、最新版(2017/1/31 21:39; 03739fd)を本家github(下記)からダウンロードして試したところ、残念ながら、特に速くなったり、機能が追加されている気はしません。また、残念ながら、色が妙に青みがかっています。github.com 1/29ダウンロード版で…

線画着色で満員御礼!

当サイトはこれまで平均100PV/日程度のアクセス数だったのですが、昨日と本日は、各1日で1か月分のPVを頂きました。関心を持って頂き、まことにありがとうございます。とても励みになります。 ついでに、他の記事も見てくれると更にうれしいです。例えば、Op…

写真から輪郭を抽出し線画着色

ローカルに線画着色できるので、色々試してみました。今回、写真から輪郭を抽出し、それを基に線画着色してみました。輪郭を抽出するjupyter notebookはgithubにアップしましたので、パラメーターをいろいろ変えて試してみてください。以下では、googleで「…

DL使った線画自動着色がCPUでも動くようにしました

DL使った線画自動着色の件、下記記事を書いた後で、CPUだけでも動くように修正し、pull requestを出させていただきました。幸い、conflictsは無いようです。itsukara.hateblo.jp修正内容ですが、元々CPUで使う場合は"python server.py -g -1"とすれば動くは…

DL使った線画自動着色が凄すぎる!

下記の記事が、「はてなブックマーク」で第1位になっていたので、お試しサイトで試そうと思ったら、アクセスが非常に多いらしく、なかなか結果が出ないので、自分のPCにgit cloneして試してみました。qiita.com お試しサイト:http://paintschainer.preferre…

【DRL, Montezuma】thread毎多様性の効果確認!(12/7修正)

A3Cをベースにした環境で、Montezuma's RevengeのDeep Reinforcement Learningを行っていますが、thread毎に多様性を持たせた効果が示せました。(12/7訂正)下記サイト掲載の学習状況をご覧ください。 http://52.193.119.202/montezuma-x/00index.html 上記サ…

【DRL, Montezuma】これまでの最高得点3600点取得動画

Thread毎の環境の多様性を高めた実験で、これまでの最高得点である3600点を取得した動画が撮れました。結構良い動きをしているように見えます。ただ、ライフが減っても気にしない動きをしています。ライフが減るイベントをうまく回避できれば、もっと先まで…

【DRL, Montezuma】到達部屋追加でスライド更新(20161205)

懲りずに続けているMontezuma's Revengeの実験ですが、到達部屋が1つ増えましたので(下図最下段の右端)、スライドを更新しました。下記がこれまでの到達部屋です。なお、Thread毎の環境の多様性を高めた実験の途中結果を下記に置きました。今のところ、SCOR…

【DRL, Montezuma】thread毎にパラーメータを変える機能を追加

VMを1台に限定すればGCPを後数日使える想定でしたが、今朝、クレジットを使い切りました。1日毎に課金をチェックするらしく、残りクレジットが420円であることに気がついた時には、既に、残りクレジットがもっと少なかったようです。何も実験しないのは寂し…

【DRL, Montezuma】GCPの無料試用期間がほぼ終了

GCPの無料試用期間がほぼ終了したので、最後の学習結果を下記に置きました。 http://52.193.119.202/montezuma-v3/00index.html 正確には、残り日数が6日で、残りクレジットが420円となりました。上記学習結果を見ると、gcp10だけは今後も訪問部屋が増える可…

【DRL, Montezuma】スライドを再更新

相変わらず続けているMontezuma's Revengeの実験ですが、pseudo-countを各部屋ごとに持つように変更したところ、到達部屋が1つ増えましたので(ROOM 20、DeepMindの論文には未記載)、スライドを更新しました(p.16、p.18、p.20を微修正。p.19を追加)。なお、p…

「Pythonで体験する 深層学習」第5章輪講資料アップロード

本日、Do2dle(ドゥードゥル)研究会の輪講があり、当方が担当した「Pythonで体験する 深層学習」第5章の輪講資料を説明しました。輪講資料を作るのにかなり間が掛かり、もったいないので、slideshareにアップロードしました。 Pythonで体験する深層学習 5…

【DRL, Montezuma】スライドを更新

到達した部屋が以前よりもかなり増えているので、スライドを更新しました(p.18)。また、到達した部屋に至る動画もスライドの途中に追加しました。 日本語版 DeepMind論文(2016/6) 「Unifying Count-Based Exploration and Intrinsic Motivation 」 記載のPse…

【DRL, Montezuma】Room18, 19に到達しました

最近は、定職についたため、なかなかDeepLearningのソースコードをいじる機会がなく、同じソースコードのままで、色々とパラメーターを変えて試しています。その結果、新たに、Room18、19に到達しましたので、動画を下記にアップしました。 youtu.beDeepMind…

英語スライドなのに、日本からのアクセスが多い Why?

Montezuma's Revengeの件を英語スライドにしたら、結局、10日強で200件のアクセスがありましたが、アクセス元は日本・米国・中国が15:6:3の比率で、なぜか日本からのアクセスが多かったです。Why?上記、合計が200にならないのも気になりますが...

OpenAI Gymとのテレコンの反省から英語版スライドを作成

以前の記事で、OpenAI Gymから$250のご支援を頂くことになったことを書きましたが、その関係で、本日OpenAI Gymの方と電話会議をする機会がありました。OpenAI Gymにアップロードしたプログラムのことを説明したのですが、英語版のスライドを用意していなか…

OpenAI GymにMontezuma' Revengeの最高得点更新

以前の記事で、Montezuma's Revengeの最高得点をOpenAI Gymサイトにアップしたことを書きましたが、さらに高い点数が出ましたので、更新しました。前回1127点に対して、今回は1284点と約150点アップしました。gym.openai.com

DRLの学習状況をスマホからいつでも見れるようにしました

昨日から、自宅にいることが少なくなったため、外出先でスマホからDRLの学習状況をすぐに見れるようにしました。具体的には、AWSの無料枠で動かしているEC2 VMにapache2を導入し、gcpの各VMでの学習曲線(.png)と到達ルーム(.rooms)をapache2のドキュメントル…

Montezuma's RevengeのRoom8到達動画が出来ました

以前の記事で、DeepMindが未到達の部屋Room3, 8, 9に到達できたことを書きましたが、前回の時点ではRoom8到達動画がありませんでした。今回、Room8の到達動画が得られましたので、youtubeにアップしました。ちなみに、Room8は、下記でピンクに塗られている一…

VM再起動対応で入れたthread間同期は影響がありそう

前回記事で、自宅PCとGCPで学習曲線が極端に異なる事を書きました。その原因として、VM再起動対応で入れたthread間の同期の影響も考えられるので、確認しました。結果、影響がありそうです。自宅PCは仮想コア8でthread数8に対し、GCPは仮想コア4でthread数4…

自宅PCとGCPで学習曲線が極端に異なる

独自DRL環境(A3C + Pseudo-Code + On-Highscore-Learning)の評価はGCP(Google Cloud Platform)で進めているのですが、同じ条件で評価しても、自宅PCと学習曲線が極端に異なる場合があることが分かりました。念の為、両方共2回評価したのですが、自宅PCでは0.…

OpenAI Gymから$250のご支援を頂くことになりました

OpenAI GymにMontezuma's Revengeの評価結果を出した件、ついでに評価用AWSクレジット$250クレジットに応募したところ、OKが出ました。OpenAI Gymにアップロードした甲斐がありました。これで、GPUを使った高速な評価ができそうです。

DRL学習プログラムのVM再起動対応強化の準備中

前回記事で、VM再起動のDRL学習プログラムへの影響を書きましたが、この解決に向けて、全ThreadのPseudo-count情報をsave/loadする機能を作成中です。そのためには、Thread間での同期処理が必要であり、これを誤ると後で発見するのが大変なので、まずはテス…

VM再起動の学習への影響

前回記事に記載のように、GCPの格安な「Preemptible VM Instance」を使って、独自機能付DRL(A3C+Pseudo-count+On-Highscore-Learning(OHL)の実験中です。具体的には、Montezuma's Revengeへの適用実験をしていますが、Preemptible VM InstanceによるVM再起動…

DRLでの格安なGCP Preemptible VM Instanceの利用方法

DRL(Deep Reinforcement Learning)の環境としてGoogle Cloud Platform(GCP)の無料枠($300まで and 2ヶ月まで無料)を使っていますが、当方のDRL環境に合ったマシン(4CPU+8GBメモリ)を通常通り使用すると$90/月掛かるため、$300では3台月強が上限となります。…

OpenAI GymでのMontezuma's Revenge評価の影響要因

OpenAI Gymで得点に特に影響した要素について記載します。 の値 Pseudo-count(擬似的な出現回数)から計算されるReward計算式(下記)でのは特に影響が大きかったです。 Azure*1やGoogle Cloud Platform*2の無料枠で得られる計算資源しか使えないため、余り包括…

Montezuma' Revengeの到達部屋でDeepMindを超えました!

Deep Reinforcement LearningでAtariのゲームMontezuma's Revengeを攻略した結果をOpenAI Gymにアップしたことを 前回記事で書きましたが、その時の平均スコア(448点)に対し、同じ設定で更に高い平均点(1127点)が得られましたので、再度、OpenAI Gymにアップ…

OpenAI GymにMontezuma' Revengeの最高得点アップ

ここ2ヶ月ほど取り組んできたMontezuma's Revengeの件、OpenAI Gymでも動くようにし、下記サイトにアップいたしました。一応、歴代最高得点となります。是非、レビューいただけるとありがたいです。 gym.openai.com

【DRL】Monezuma's Revengeの平均点が2000点に迫る

以前の記事を書いた後で、Montezuma's Revengeの平均点を上げようと色々ソースコードをいじっているため、以前に出た点数が出なくなっている可能性もあり、一応、以前の実行結果を再現させてみました。今回、100M stepsまで実行し、平均点が2000点にかなり近…

初等線形代数・統計でMNISTの94.8%の画像を正しく分離

昨日の記事で、初等的な線形代数と統計のみで、MNISTの94.0%の画像を正しく分離できたことを書きましたが、手法を少しだけ見なおすことで、精度が94.8%になりました。 0: ok=4853(98.0%), ng=97(2.0%) 1: ok=5191(92.3%), ng=432(7.7%) 2: ok=4827(97.2%), n…

初等線形代数・統計でMNISTの94%の画像を正しく分離!

前回記事でVAE(Variational Autoencorder)の中間層のデータ構造について書きましたが、MNISTの画像データ群自体の構造を、同様の手法で分析しました。結果、MNISTの50,000個の画像のうち94.0%は正しく分離できました*1。また、50,000個の画像の分類に基づい…

Variational Autoencoderの中間層データの構造(MNIST)

結構前(9/6)に、Variational Autoencoderの中間層の構造に関する記事を書きました。その後、前回の記事で気になっていた点(中間層データの構造)を確認したので、メモにします。 以前の記事の要約(今回記事関連) MNISTのデータ(0〜9の各数字の画像データ集)…

Azure Virtual Machinesはクローンが面倒で不便

以前の記事で、DRL(Deep Reinforcement Learning)の実験環境としてAzure Virtual Machines(以下Azure)の無料枠を使い始めたことを書きましたが、AzureではVirtual Machineのクローンがちょっと面倒だということが分かりました。googleで「azure virtual mach…

SlideShareは無料でアクセス詳細分析ができて凄い!

9/15の記事で、これまで本ブログに書いてきた内容をSlideShareに載せたことを書きましたが、今回初めてSlideShareにアップロードして、SlideShareの詳細分析機能の素晴らしさに驚いています。下記は、アクセス数のグラフです。ある程度関心を持って頂き、98…

DRLのインフラとしてAzure無料枠の使用開始

DRL (Deep Reinforcement Learning)の評価のためにクラウドとしてAWSとGoogle Cloud Platformを使ってきましたが、AWSは無料枠内ではDRLに必要な計算リソースが足りず、Google Cloud Platfromは$300の無料枠を使いきってしまいましたので、Azureの無料枠を使…

VAEと蒸留の関係についての考察

以前の記事でVAE(Variational Autoencoder)によるMNISTの文字の分類に関し、教師なし学習でもほぼ90%以上の画像が正しい数字に分類されるのは面白いと書きました。最近、当方が所属する勉強会で、深層学習(人工知能学会監修)の4章を担当し、担当部分に書かれ…

【DRL】成功体験の亡霊に囚われたPanama Joe

前回記事で、Montezuma's RevengeのDRL(A3C+Pseudo-Code+独自手法(On-Highscore-Learning)による評価で平均点1500点を超えたことを報告しましたが、時間のない中で出来るだけ速く学習させすぎたためか、過学習になっている事が分かりました。具体的には、平…

【DRL】Monezuma's Revengeで平均点が1500点を超えました

前々回記事に記載の通り、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで最難関ゲームの1つであるMontezuma's Revengeに対して、高得点を取得するための挑戦を行っています。先週前半に評価開始したものが…

強化学習における最難関ゲームMontezuma's Revengeへ挑戦

Montezuma's Revengeとは、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで、つい最近(2016/6)まで殆ど得点が取れず、最難関ゲームの1つと位置づけられていました。当方は、8月中旬頃から、Montezuma's Reve…

【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。OHLで、残ったライフが多いほど学習履歴長を伸ばす機能を入れて、色々なオプションで試したのです…

【DL、A3C+、OHL、Montezuma】GCPのマシンタイプ変更

直前の記事で、A3C+OHLでのMontezuma's Revengeの評価にGoogle Cloud Platform (GCP)を使っている話を書きましたが、先ほど確認したら、なぜかnohupしたプロセスがkillされていました。/var/log/syslogを確認したところ、下記のように、メモリ不足になった模…