読者です 読者をやめる 読者になる 読者になる

Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL】Monezuma's Revengeの平均点が2000点に迫る

以前の記事を書いた後で、Montezuma's Revengeの平均点を上げようと色々ソースコードをいじっているため、以前に出た点数が出なくなっている可能性もあり、一応、以前の実行結果を再現させてみました。今回、100M stepsまで実行し、平均点が2000点にかなり近…

初等線形代数・統計でMNISTの94.8%の画像を正しく分離

昨日の記事で、初等的な線形代数と統計のみで、MNISTの94.0%の画像を正しく分離できたことを書きましたが、手法を少しだけ見なおすことで、精度が94.8%になりました。 0: ok=4853(98.0%), ng=97(2.0%) 1: ok=5191(92.3%), ng=432(7.7%) 2: ok=4827(97.2%), n…

初等線形代数・統計でMNISTの94%の画像を正しく分離!

前回記事でVAE(Variational Autoencorder)の中間層のデータ構造について書きましたが、MNISTの画像データ群自体の構造を、同様の手法で分析しました。結果、MNISTの50,000個の画像のうち94.0%は正しく分離できました*1。また、50,000個の画像の分類に基づい…

Variational Autoencoderの中間層データの構造(MNIST)

結構前(9/6)に、Variational Autoencoderの中間層の構造に関する記事を書きました。その後、前回の記事で気になっていた点(中間層データの構造)を確認したので、メモにします。 以前の記事の要約(今回記事関連) MNISTのデータ(0〜9の各数字の画像データ集)…

Azure Virtual Machinesはクローンが面倒で不便

以前の記事で、DRL(Deep Reinforcement Learning)の実験環境としてAzure Virtual Machines(以下Azure)の無料枠を使い始めたことを書きましたが、AzureではVirtual Machineのクローンがちょっと面倒だということが分かりました。googleで「azure virtual mach…

SlideShareに中国サイバー軍アクセス? 心当たり反応求む!

前回の記事で、SlideShareに初めてファイルをアップロードしたところ、中国からのアクセスが意外に多かった書きましたが、その後、アクセス元の関連情報をWEBで調べたところ、中国サイバー軍の定期的情報収集の一環ではないかと思っております。つまり、Slid…

SlideShareは無料でアクセス詳細分析ができて凄い!

9/15の記事で、これまで本ブログに書いてきた内容をSlideShareに載せたことを書きましたが、今回初めてSlideShareにアップロードして、SlideShareの詳細分析機能の素晴らしさに驚いています。下記は、アクセス数のグラフです。ある程度関心を持って頂き、98…

DRLのインフラとしてAzure無料枠の使用開始

DRL (Deep Reinforcement Learning)の評価のためにクラウドとしてAWSとGoogle Cloud Platformを使ってきましたが、AWSは無料枠内ではDRLに必要な計算リソースが足りず、Google Cloud Platfromは$300の無料枠を使いきってしまいましたので、Azureの無料枠を使…

VAEと蒸留の関係についての考察

以前の記事でVAE(Variational Autoencoder)によるMNISTの文字の分類に関し、教師なし学習でもほぼ90%以上の画像が正しい数字に分類されるのは面白いと書きました。最近、当方が所属する勉強会で、深層学習(人工知能学会監修)の4章を担当し、担当部分に書かれ…

【DRL】成功体験の亡霊に囚われたPanama Joe

前回記事で、Montezuma's RevengeのDRL(A3C+Pseudo-Code+独自手法(On-Highscore-Learning)による評価で平均点1500点を超えたことを報告しましたが、時間のない中で出来るだけ速く学習させすぎたためか、過学習になっている事が分かりました。具体的には、平…

【DRL】Monezuma's Revengeで平均点が1500点を超えました

前々回記事に記載の通り、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで最難関ゲームの1つであるMontezuma's Revengeに対して、高得点を取得するための挑戦を行っています。先週前半に評価開始したものが…

Montezuma's Revengeで27,900点とれました!

Montezuma's Revengeで27,900点とれました。下記はLevel2の最初の部屋です。...といっても、DRL(Deep Reinforcement Learning)ではなく、ゲームエミュレータStellaで当方がプレイしたお話しです。しかも、当方のゲームスキルで27,900点とれるわけもなく、che…

強化学習における最難関ゲームMontezuma's Revengeへ挑戦

Montezuma's Revengeとは、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで、つい最近(2016/6)まで殆ど得点が取れず、最難関ゲームの1つと位置づけられていました。当方は、8月中旬頃から、Montezuma's Reve…

【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。OHLで、残ったライフが多いほど学習履歴長を伸ばす機能を入れて、色々なオプションで試したのです…

【DL、A3C+、OHL、Montezuma】GCPのマシンタイプ変更

直前の記事で、A3C+OHLでのMontezuma's Revengeの評価にGoogle Cloud Platform (GCP)を使っている話を書きましたが、先ほど確認したら、なぜかnohupしたプロセスがkillされていました。/var/log/syslogを確認したところ、下記のように、メモリ不足になった模…

【DL、A3C+、OHL、Montezuma】評価環境をGCPに統一

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。自宅のデスクトップPCでUbuntuをDual Bootした環境で評価していましたが、評価中はデスクトップPC…

202HW外部アンテナ接続ケーブル作成

以前の記事で、ソフトバンクのPhotoVision TV 202HWでTVやスライドショーを全画面で表示する改造の話を書きましたが、実はあまり活用できていませんでした。このたび、知人が使うことになったので、この記事を見て以前に作成したケーブルでアンテナ端子に接…

【DL、A3C+、OHL、Montezuma】実験結果共有のお願い

このブログやGithubを見て、当方のコードを試されている方へのお願いです。Githubに実験結果共有用のthreadを作りましたので、実験結果を共有頂ければ幸いです。実験結果を2つ載せましたので、これらおフォーマットに準じた内容にしていただけるとありがたい…

【DL、A3C+、OHL、Montezuma】評価状況

相変わらずA3C+に独自機能(On-Highscore-Learning)を入れたソースで、色々と試しています。先ほど、HighscoreとなるEpisodeを自動的に選択する機能を入れたソースを下記Githubにpushしました。これから評価される方は、これをお使いください。 github.com現…

【DL、A3C+、OHL、Montezuma】パラメーターの影響確認中

A3C+に独自機能(On-Highscore-Learning)を加えたプログラムでのMontezuma's Revengeの強化学習を試行中です。学習に時間が掛かるため、最適なパラメータを探索できず、山勘で選んでいると書きましたが、実は、学習が終了するのを待ちきれず、学習途中でも、…

Variational Autoencoderの中間層データの性質

9/1の記事と9/3の記事で、Variational Autoencoderの中間層の話を書きましたが、その後、山田さんから「中間層が5次元での画像の再現状況は?」との質問を頂きました。これを改めて確認しました(後述)。ちなみに、当方は、VAEに詳しいわけではなく、単にVAE…

Variational Autoencoderの20次元中間層内距離の件(続き)

9/1の記事で、Variational Autoencoderの20次元中間層の構造に関して記載し、なぜか20次元のうち20次元のみが活性化されている件を書いたところ、本件を紹介頂いたNTT研究所山田さんから、次元を変えても10次元のみが活性化されるか確認してみると良いのでは…

【DL、RL、A3C+】Montezumaで最高得点2600点取得の不思議さ

直前の記事で、Montezumaで最高得点2600点が出たことを書きましたが、これはとても不思議なことです。つまり、49M STEPSのTraining中に2600点が出なかったのに、プレイ動画生成での10回程度のプレイ時に26000点が出たのは、確率的に見て非常に不思議というこ…

【DL、RL、A3C+】Montezumaで最高得点2600点取得!!!

A3C+独自機能("on-highscore-learning"と命名、OHLと略記)でMontezuma's Revengeを評価しており、平均点500点強で伸びなくなり49M STEPSで中断しましたが、Trainingデータでのプレイ動画を撮り忘れたので念の為撮ったところ、何と、初の最高得点2600点を取得…

【DL、RL、A3C+】Montezumaで評価:平均点500点強で飽和

A3C+の論文に基づいたコードでMontezuma's Revengeの得点要因を調査し、当方が独自で入れ込んだ「高得点が出た時に、その履歴(状態、アクション、得点の履歴)から学習させる機能("on-highscore-learning"と命名。OHLと略記)」の効果が高いことを昨日の記事に…

【DL、RL、A3C+】pseudo-countを画像化しました

Tensorflowの実験をしていると、Tensorflowを使った他の実験はGPUメモリ不足でエラーとなり、あまり色々なことができないので、以前の記事で書いたpseudo-countのデータを視覚化してみました。 期待値画像 pseudo-countの計算のために、ゲーム画面の各画素に…

【DL、RL、A3C+】Montezumaの得点:得点時履歴学習の影響大

A3C+の論文に基づいたコードでMontezuma's Revengeの得点要因を調査しているところですが、直前の記事での予測のように、当方が独自で入れ込んだ「高得点が出た時に、その履歴(状態、アクション、得点の履歴)から学習させる機能」の効果が高いことが分かりま…

【DL、RL、A3C+】Montezumaの得点要因を検証中(12:40更新)

これまで書きましたように、A3Cにpseudo-countを入れたコード(A3C+)で、Atari2600のMontezuma's Revengeで最高得点2500点が出たり、平均得点が400点を超えるなど、良い結果が得られています。学習途中でi-node不足で異常終了したため、既存pseudo-countデー…

Variational Autoencoderの20次元中間層内距離の確認結果

昨日(8/31)、全脳アーキテクチャ勉強会のオフ会に参加したところ、NTT研究所の山田さんがVariational Autoencoderの話をされ、MNISTのデータに対して20ノードの中間層まで圧縮できる話を伺いました。これだけ圧縮すると、いわゆる「おばあちゃんニューロン」…

【DL、RL、A3C+】Montezumaで2500点出ました!

直前の記事記載のように、A3c+でMontezuma's Revenge学習中にi-node不足で途中終了したので、終了前のpseudo-countデータ無しで途中再開して試しています。学習曲線は以下のようになってます。 平均得点が元のレベル元に戻るまで5M STEPS弱掛かってしまいま…

【DL、RL】A3C+のpseudo-count無しの途中再開は今ひとつ

直前の記事で、pseudo-countの保存機能の無い版のソースコードを公開したと書きましたが、やはり、pseudo-count無しの途中再開は、中断前の平均得点に戻るまで時間が掛かりそうです。下記が、pseudo-count無しでの再開の状況です。誰か、pseudo-countのセー…

【DL、RL】A3Cでのpseudo-countの実装について

DeepMind社の論文[「[1606.01868] Unifying Count-Based Exploration and Intrinsic Motivation」記載のpseudo-countのA3C on pythonでの実装について、防備録を残しておきます。なお、論文は抽象化して書かれていますが、当方の当面のターゲットはAtari2600…

【DL.A3C+pseudo-count】Montezumaで平均400点達成

直前の記事で途中経過を記載した件、途中でエラーとなり終了してしまいました。「No space left on device ...」と出ていますが、「df -h」でみると容量はまだ余っている様子。よく見ると「os.makedirs」でエラーが出ているので、i-node不足の可能性があり、…

【DL.A3C+pseudo-count】Montezuma途中(22M)経過良好

少し前の記事で記載しましたように、Deep LearningのA3C論文再現コードに、最新論文の手法(pseudo-count)を加えて改造し、トライアル実行中です。途中経過ですが、非常に良好なので報告させていただきます。下記のように、18M STEPS辺りから平均点数が急激に…

【DL.A3C+pseudo-count】Montezumaで5つの部屋に到達!!

8/26の記事で記載しましたように、Deep LearningのA3C論文再現コードに独自の改造を加えて色々試しています。A3Cだけでは殆ど点数が取れないゲーム「Montezuma's Revenge」で高得点を取ることが現在の目標です。A3C論文再現コードを書いたmiyosudaさんから、…

【DL.A3C】Montezuma' RevengeでScore=400の動画

直前の記事の続きです。400点の動画も撮れましたので、載せておきます。100点取れていれば、400点になるのは、ごく簡単ですね。ご参考まで。 youtu.be 注意 コマンドを少し改造しました。最新版をGithubからfetchのうえ、動画変換は、下記コマンドを利用くだ…

【DL.A3C】Montezuma' RevengeでScore=100の動画

相変わらず、Deep LearningのA3C論文再現コードを改造して遊んでいます。以前に書きましたように、Montezuma's Revengeでは、殆どのエピソード(1回のゲーム)で得点が0です。しかし、得点が得られた時にプレイ動画を見たいと思いました。そこで、プログラムを…

でんき家計簿:東京ガス切り替え後も過去分見れました

下記で電力会社を東京電力に切り替えると書きましたが、切り替え完了しました。 itsukara.hateblo.jp 8/9に申し込んで、8/19に切り替えが完了したので、わずか10日間ですみました。申し込みの際にWebに書かれた情報では2か月ぐらい掛かるとのことでしたが、…

AWSが$25分の無料利用クーポン提供中(本日(8/25)12:00まで)

AWSが期間限定(8月23日12:00~25日12:00までの48時間限定)で、$25分の無料利用クーポンをプレゼントするキャンペーン中です。性能の非常に低いインスタンスならば元々1年間無料で使えますが、それに加えて$25分を自由に使えるというものです。機械学習のイン…

Google Cloud PlatformでのA3C実験環境構築スクリプト

Deep Learningの実験にクラウドは欠かせないと感じており、Google Cloud Platform (GCP)やAmazon Web Servicesの無料試用枠を活用しています。今後は、Microsoft AzureやIBM Softlayerの無料試用枠も活用する予定です。実験にあたっては、色々なクラウドで同…

再:Deep Learningで特定ゲームのSOREが低い理由

一度誤った情報を書いてしまったので、削除の上、新たに書かせて頂きます。 経緯 相変わらずA3C再現コードを、Breakoutでの学習曲線の変化を確認していますが、私が参加している勉強会Do2dleでは、A3Cの論文でSOREが低いMontezuma's RevengeのSCOREを上げる…

Githubソースへの注意書きを追加

下記で、東京電力「でんき家計簿」のデータ自動抽出ツールを微修正したことを書いたのですが、これでもうまく動作しない方がいて、そのやりとりに時間が掛かってしまいました。itsukara.hateblo.jpそこで、Github掲載のREADME.mdに、下記注意事項を追記しま…

DQNでのReplay Memory圧縮効果

下記でDeepMindのDQN再現コードを試行した話を書きましたが、当方のマシンではメモリが16GBしかないため、Replay Memoryが0.4M個に制限されていました。そこで、試しにReplay Memoryをメモリ上で圧縮する処理を入れてみたところ、Replay Memory用のメモリサ…

A3Cでのbreakout学習済networkをgithubにアップしました

下記でDeep Learningの最新技術A3Cでゲームbreakoutを試したことを書きましたが、よく考えたら学習済networkをgithubにアップロードするのを忘れていました。先ほどgithubにアップロードしました。試したい方はどうぞ。itsukara.hateblo.jptensorflowが動く…

プロブラム出力データの定期的グラフ化ツール

Tensorboardのグラフが貧弱なので、自分でグラフ化ツールを試作した話を下記で書きましたが、多少アップデートしたので掲載します。少しでも役立つ方がいれば幸いです。itsukara.hateblo.jp新版では、グラフを一度表示後、ファイルに順次追加されていくデー…

K平均法でMNIST文字データの分類を試行

Do2dle勉強会という機械学習関連の勉強会に参加しており、月に2〜3回のペースで集まって、本の輪講などを行っています。一人で本を読んでいるのと異なり、勉強会では本の内容に関して色々と議論するので、とても刺激になって楽しいです。ちなみに、Do2dle…

最新機械学習論文再現コードの修正版をGithubに掲載

下記の記事で書いたA3C再現コードの修正版をGithubに載せました(pull request中)。 ご参考まで。 itsukara.hateblo.jp 掲載場所 修正版:https://github.com/Itsukara/async_deep_reinforce 「Branch」で「breakout」を選択してZIPファイルをダウンロードす…

東京電力「でんき家計簿」データ自動抽出ツールを微修正

かなり以前の記事(下記)で、東京電力「でんき家計簿」の時間別グラフのデータ自動抽出ツールのことを書きましたが、試された方から「動かない!」とのコメントを2件いただきました。少し反応が遅れてしまいましたが修正しましたので、Githubから最新版を入手…

シンギュラリティサロンに参加。具体的な話が聞けました

7/30(日)に開催されたシンギュラリティサロンに行ってきました。「人類を再発明するのに必要なこと」というタイトルで、理化学研究所の高橋 恒一が講演を行いました。少し怪しげなタイトルと感じたのですが、かなり真面目な話で、シンギュラリティに対する取…

Tensorboardのグラフは、もうすこし何とかならないのか?

Tensorflowでは、ゲームSCOREなどのスカラ値をTensorboardでグラフ化してくれるのはありがたいのですが、グラフが荒すぎます。また、移動平均など、当然必要と思われる機能がありません。せめて、移動平均ぐらいは出して欲しいです。試しに、ゲームSCOREとそ…