2016-10-01から1ヶ月間の記事一覧
以前の記事で、OpenAI Gymから$250のご支援を頂くことになったことを書きましたが、その関係で、本日OpenAI Gymの方と電話会議をする機会がありました。OpenAI Gymにアップロードしたプログラムのことを説明したのですが、英語版のスライドを用意していなか…
以前の記事で、Montezuma's Revengeの最高得点をOpenAI Gymサイトにアップしたことを書きましたが、さらに高い点数が出ましたので、更新しました。前回1127点に対して、今回は1284点と約150点アップしました。gym.openai.com
昨日から、自宅にいることが少なくなったため、外出先でスマホからDRLの学習状況をすぐに見れるようにしました。具体的には、AWSの無料枠で動かしているEC2 VMにapache2を導入し、gcpの各VMでの学習曲線(.png)と到達ルーム(.rooms)をapache2のドキュメントル…
以前の記事で、DeepMindが未到達の部屋Room3, 8, 9に到達できたことを書きましたが、前回の時点ではRoom8到達動画がありませんでした。今回、Room8の到達動画が得られましたので、youtubeにアップしました。ちなみに、Room8は、下記でピンクに塗られている一…
GCP (Google Cloud Platform)のPreemptible VM Instancesを活用し、無料枠内で4CPUのVM Instance 6台を2か月運用する予定ですが、Preemptible VM Instancesは24時間で自動的に停止するので、停止したVMを検出して自動再起動するようにしています。詳細は、以…
前回記事で、自宅PCとGCPで学習曲線が極端に異なる事を書きました。その原因として、VM再起動対応で入れたthread間の同期の影響も考えられるので、確認しました。結果、影響がありそうです。自宅PCは仮想コア8でthread数8に対し、GCPは仮想コア4でthread数4…
独自DRL環境(A3C + Pseudo-Code + On-Highscore-Learning)の評価はGCP(Google Cloud Platform)で進めているのですが、同じ条件で評価しても、自宅PCと学習曲線が極端に異なる場合があることが分かりました。念の為、両方共2回評価したのですが、自宅PCでは0.…
OpenAI GymにMontezuma's Revengeの評価結果を出した件、ついでに評価用AWSクレジット$250クレジットに応募したところ、OKが出ました。OpenAI Gymにアップロードした甲斐がありました。これで、GPUを使った高速な評価ができそうです。
前回記事で、VM再起動のDRL学習プログラムへの影響を書きましたが、この解決に向けて、全ThreadのPseudo-count情報をsave/loadする機能を作成中です。そのためには、Thread間での同期処理が必要であり、これを誤ると後で発見するのが大変なので、まずはテス…
前回記事に記載のように、GCPの格安な「Preemptible VM Instance」を使って、独自機能付DRL(A3C+Pseudo-count+On-Highscore-Learning(OHL)の実験中です。具体的には、Montezuma's Revengeへの適用実験をしていますが、Preemptible VM InstanceによるVM再起動…
DRL(Deep Reinforcement Learning)の環境としてGoogle Cloud Platform(GCP)の無料枠($300まで and 2ヶ月まで無料)を使っていますが、当方のDRL環境に合ったマシン(4CPU+8GBメモリ)を通常通り使用すると$90/月掛かるため、$300では3台月強が上限となります。…
OpenAI Gymで得点に特に影響した要素について記載します。 の値 Pseudo-count(擬似的な出現回数)から計算されるReward計算式(下記)でのは特に影響が大きかったです。 Azure*1やGoogle Cloud Platform*2の無料枠で得られる計算資源しか使えないため、余り包括…
Deep Reinforcement LearningでAtariのゲームMontezuma's Revengeを攻略した結果をOpenAI Gymにアップしたことを 前回記事で書きましたが、その時の平均スコア(448点)に対し、同じ設定で更に高い平均点(1127点)が得られましたので、再度、OpenAI Gymにアップ…
ここ2ヶ月ほど取り組んできたMontezuma's Revengeの件、OpenAI Gymでも動くようにし、下記サイトにアップいたしました。一応、歴代最高得点となります。是非、レビューいただけるとありがたいです。 gym.openai.com
以前の記事を書いた後で、Montezuma's Revengeの平均点を上げようと色々ソースコードをいじっているため、以前に出た点数が出なくなっている可能性もあり、一応、以前の実行結果を再現させてみました。今回、100M stepsまで実行し、平均点が2000点にかなり近…
昨日の記事で、初等的な線形代数と統計のみで、MNISTの94.0%の画像を正しく分離できたことを書きましたが、手法を少しだけ見なおすことで、精度が94.8%になりました。 0: ok=4853(98.0%), ng=97(2.0%) 1: ok=5191(92.3%), ng=432(7.7%) 2: ok=4827(97.2%), n…
前回記事でVAE(Variational Autoencorder)の中間層のデータ構造について書きましたが、MNISTの画像データ群自体の構造を、同様の手法で分析しました。結果、MNISTの50,000個の画像のうち94.0%は正しく分離できました*1。また、50,000個の画像の分類に基づい…
結構前(9/6)に、Variational Autoencoderの中間層の構造に関する記事を書きました。その後、前回の記事で気になっていた点(中間層データの構造)を確認したので、メモにします。 以前の記事の要約(今回記事関連) MNISTのデータ(0〜9の各数字の画像データ集)…