OpenAI GymでのMontezuma's Revenge評価の影響要因

OpenAI Gymで得点に特に影響した要素について記載します。の値 Pseudo-count(擬似的な出現回数)から計算されるReward計算式(下記)でのは特に影響が大きかったです。 Azure*1やGoogle Cloud Platform*2の無料枠で得られる計算資源しか使えないため、余り包括…

2016-10-14

Montezuma' Revengeの到達部屋でDeepMindを超えました！

Montezuma's Revenge 機械学習 Python ITのお勉強

Deep Reinforcement LearningでAtariのゲームMontezuma's Revengeを攻略した結果をOpenAI Gymにアップしたことを前回記事で書きましたが、その時の平均スコア(448点)に対し、同じ設定で更に高い平均点(1127点)が得られましたので、再度、OpenAI Gymにアップ…

2016-10-14

OpenAI GymにMontezuma' Revengeの最高得点アップ

Montezuma's Revenge 機械学習 Python ITのお勉強

ここ２ヶ月ほど取り組んできたMontezuma's Revengeの件、OpenAI Gymでも動くようにし、下記サイトにアップいたしました。一応、歴代最高得点となります。是非、レビューいただけるとありがたいです。 gym.openai.com

2016-10-07

【DRL】Monezuma's Revengeの平均点が2000点に迫る

DRL Montezuma's Revenge 機械学習 Python

以前の記事を書いた後で、Montezuma's Revengeの平均点を上げようと色々ソースコードをいじっているため、以前に出た点数が出なくなっている可能性もあり、一応、以前の実行結果を再現させてみました。今回、100M stepsまで実行し、平均点が2000点にかなり近…

2016-10-07

初等線形代数・統計でMNISTの94.8%の画像を正しく分離

機械学習 Python ITのお勉強

昨日の記事で、初等的な線形代数と統計のみで、MNISTの94.0%の画像を正しく分離できたことを書きましたが、手法を少しだけ見なおすことで、精度が94.8%になりました。 0: ok=4853(98.0%), ng=97(2.0%) 1: ok=5191(92.3%), ng=432(7.7%) 2: ok=4827(97.2%), n…

2016-10-05

初等線形代数・統計でMNISTの94%の画像を正しく分離！

機械学習 Python Auto Encoder ITのお勉強

前回記事でVAE(Variational Autoencorder)の中間層のデータ構造について書きましたが、MNISTの画像データ群自体の構造を、同様の手法で分析しました。結果、MNISTの50,000個の画像のうち94.0%は正しく分離できました*1。また、50,000個の画像の分類に基づい…

2016-10-02

Variational Autoencoderの中間層データの構造(MNIST)

Auto Encoder 機械学習 Python

結構前(9/6)に、Variational Autoencoderの中間層の構造に関する記事を書きました。その後、前回の記事で気になっていた点(中間層データの構造)を確認したので、メモにします。以前の記事の要約（今回記事関連） MNISTのデータ(0〜9の各数字の画像データ集)…

2016-09-21

Azure Virtual Machinesはクローンが面倒で不便

インフラ機械学習 DRL

以前の記事で、DRL(Deep Reinforcement Learning)の実験環境としてAzure Virtual Machines(以下Azure)の無料枠を使い始めたことを書きましたが、AzureではVirtual Machineのクローンがちょっと面倒だということが分かりました。googleで「azure virtual mach…

2016-09-20

SlideShareに中国サイバー軍アクセス？心当たり反応求む！

セキュリティ ITのお勉強

前回の記事で、SlideShareに初めてファイルをアップロードしたところ、中国からのアクセスが意外に多かった書きましたが、その後、アクセス元の関連情報をWEBで調べたところ、中国サイバー軍の定期的情報収集の一環ではないかと思っております。つまり、Slid…

2016-09-19

SlideShareは無料でアクセス詳細分析ができて凄い！

ITのお勉強 Montezuma's Revenge 機械学習 DRL

9/15の記事で、これまで本ブログに書いてきた内容をSlideShareに載せたことを書きましたが、今回初めてSlideShareにアップロードして、SlideShareの詳細分析機能の素晴らしさに驚いています。下記は、アクセス数のグラフです。ある程度関心を持って頂き、98…

2016-09-19

DRLのインフラとしてAzure無料枠の使用開始

インフラ機械学習

DRL (Deep Reinforcement Learning)の評価のためにクラウドとしてAWSとGoogle Cloud Platformを使ってきましたが、AWSは無料枠内ではDRLに必要な計算リソースが足りず、Google Cloud Platfromは$300の無料枠を使いきってしまいましたので、Azureの無料枠を使…

2016-09-19

VAEと蒸留の関係についての考察

機械学習

以前の記事でVAE(Variational Autoencoder)によるMNISTの文字の分類に関し、教師なし学習でもほぼ90%以上の画像が正しい数字に分類されるのは面白いと書きました。最近、当方が所属する勉強会で、深層学習(人工知能学会監修)の4章を担当し、担当部分に書かれ…

2016-09-19

【DRL】成功体験の亡霊に囚われたPanama Joe

DRL Montezuma's Revenge 機械学習 Python

前回記事で、Montezuma's RevengeのDRL(A3C+Pseudo-Code+独自手法(On-Highscore-Learning)による評価で平均点1500点を超えたことを報告しましたが、時間のない中で出来るだけ速く学習させすぎたためか、過学習になっている事が分かりました。具体的には、平…

2016-09-19

【DRL】Monezuma's Revengeで平均点が1500点を超えました

DRL Montezuma's Revenge 機械学習 Python

前々回記事に記載の通り、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで最難関ゲームの1つであるMontezuma's Revengeに対して、高得点を取得するための挑戦を行っています。先週前半に評価開始したものが…

2016-09-19

Montezuma's Revengeで27,900点とれました！

Montezuma's Revenge 改造

Montezuma's Revengeで27,900点とれました。下記はLevel2の最初の部屋です。...といっても、DRL(Deep Reinforcement Learning)ではなく、ゲームエミュレータStellaで当方がプレイしたお話しです。しかも、当方のゲームスキルで27,900点とれるわけもなく、che…

2016-09-15

強化学習における最難関ゲームMontezuma's Revengeへ挑戦

Montezuma's Revenge 機械学習 Python

Montezuma's Revengeとは、DeepMindがDRL (Deep Reinforcement Learning) の評価に利用しているAtari2600のゲーム60個の1つで、つい最近(2016/6)まで殆ど得点が取れず、最難関ゲームの1つと位置づけられていました。当方は、8月中旬頃から、Montezuma's Reve…

2016-09-12

【DL、A3C+、OHL、Montezuma】80M STEPで平均1000点超え

Montezuma's Revenge 機械学習 Python

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。OHLで、残ったライフが多いほど学習履歴長を伸ばす機能を入れて、色々なオプションで試したのです…

2016-09-09

【DL、A3C+、OHL、Montezuma】GCPのマシンタイプ変更

Montezuma's Revenge 機械学習 Python ITのお勉強

直前の記事で、A3C+OHLでのMontezuma's Revengeの評価にGoogle Cloud Platform (GCP)を使っている話を書きましたが、先ほど確認したら、なぜかnohupしたプロセスがkillされていました。/var/log/syslogを確認したところ、下記のように、メモリ不足になった模…

2016-09-08

【DL、A3C+、OHL、Montezuma】評価環境をGCPに統一

Montezuma's Revenge 機械学習

DeepMind社のA3C+に独自機能(OHL:On-Highscore-Learning)を組込んだプログラムで、Atari2600の最難関レベルゲームMontezuma's Revenge*1の評価を継続中です。自宅のデスクトップPCでUbuntuをDual Bootした環境で評価していましたが、評価中はデスクトップPC…

2016-09-08

202HW外部アンテナ接続ケーブル作成

改造

以前の記事で、ソフトバンクのPhotoVision TV 202HWでTVやスライドショーを全画面で表示する改造の話を書きましたが、実はあまり活用できていませんでした。このたび、知人が使うことになったので、この記事を見て以前に作成したケーブルでアンテナ端子に接…

2016-09-07

【DL、A3C+、OHL、Montezuma】実験結果共有のお願い

Montezuma's Revenge 機械学習 Python

このブログやGithubを見て、当方のコードを試されている方へのお願いです。Githubに実験結果共有用のthreadを作りましたので、実験結果を共有頂ければ幸いです。実験結果を2つ載せましたので、これらおフォーマットに準じた内容にしていただけるとありがたい…

2016-09-06

【DL、A3C+、OHL、Montezuma】評価状況

Montezuma's Revenge 機械学習 Python

相変わらずA3C+に独自機能(On-Highscore-Learning)を入れたソースで、色々と試しています。先ほど、HighscoreとなるEpisodeを自動的に選択する機能を入れたソースを下記Githubにpushしました。これから評価される方は、これをお使いください。 github.com現…

2016-09-06

【DL、A3C+、OHL、Montezuma】パラメーターの影響確認中

機械学習 Python ITのお勉強 Montezuma's Revenge

A3C+に独自機能(On-Highscore-Learning)を加えたプログラムでのMontezuma's Revengeの強化学習を試行中です。学習に時間が掛かるため、最適なパラメータを探索できず、山勘で選んでいると書きましたが、実は、学習が終了するのを待ちきれず、学習途中でも、…

2016-09-06

Variational Autoencoderの中間層データの性質

機械学習 Python ITのお勉強 Auto Encoder

9/1の記事と9/3の記事で、Variational Autoencoderの中間層の話を書きましたが、その後、山田さんから「中間層が5次元での画像の再現状況は？」との質問を頂きました。これを改めて確認しました(後述)。ちなみに、当方は、VAEに詳しいわけではなく、単にVAE…

2016-09-03

Variational Autoencoderの20次元中間層内距離の件(続き)

機械学習 Python ITのお勉強 Auto Encoder

9/1の記事で、Variational Autoencoderの20次元中間層の構造に関して記載し、なぜか20次元のうち20次元のみが活性化されている件を書いたところ、本件を紹介頂いたNTT研究所山田さんから、次元を変えても10次元のみが活性化されるか確認してみると良いのでは…

2016-09-03

【DL、RL、A3C+】Montezumaで最高得点2600点取得の不思議さ

機械学習 Python ITのお勉強 Montezuma's Revenge

直前の記事で、Montezumaで最高得点2600点が出たことを書きましたが、これはとても不思議なことです。つまり、49M STEPSのTraining中に2600点が出なかったのに、プレイ動画生成での10回程度のプレイ時に26000点が出たのは、確率的に見て非常に不思議というこ…

2016-09-03

【DL、RL、A3C+】Montezumaで最高得点2600点取得！！！

機械学習 Python ITのお勉強 Montezuma's Revenge

A3C+独自機能("on-highscore-learning"と命名、OHLと略記)でMontezuma's Revengeを評価しており、平均点500点強で伸びなくなり49M STEPSで中断しましたが、Trainingデータでのプレイ動画を撮り忘れたので念の為撮ったところ、何と、初の最高得点2600点を取得…