Itsukaraの日記

最新IT技術を勉強・実践中。最近はDeep Learningに注力。

【DRL, Montezuma】GCPの無料試用期間がほぼ終了

GCPの無料試用期間がほぼ終了したので、最後の学習結果を下記に置きました。

正確には、残り日数が6日で、残りクレジットが420円となりました。上記学習結果を見ると、gcp10だけは今後も訪問部屋が増える可能性があるので、これだけを残し、残りの仮想サーバー7台を全て削除しました。これで、仮想サーバーが残り1台だけになったので、6日間は使えると思います*1

ちなみに、gcp10~gcp70は、全て、thread毎の多様性を持たせて学習を安定させるために、pseudo-rewardを計算するときの指数をthread毎に少し変えてみました(2.0 + thread番号(0〜7)*0.7)。

しかし、gcp20, gcp30は、途中で急激にSCOREが0点になって、その後も回復していません。結局、多様性の効果がどの程度あったのか分かりませんでした。

統計的に有意な結果は示すには、条件を変えてもっと沢山試す必要があると思います。また、thread毎の環境も、もっと変えて試した方がよいかもしれません。例えば、上記記載の指数の変化の幅をもっと大きくするとか、pseudo-rewardの係数であるbetaも変化させるとか。

ただ、今とのころ、実験を試すプラットフォームが無くなったので、当面は、別のことに注力しようと思います。誰か、ITリソースを湯水のように提供できる人/団体がいらっしゃるとありがたいのですが...

そういえば、以前に、OpenAIから$250分のAWSクレジットを貰えそうだという話を書きましたが、OpenAIとのインタビューの話に紛れて、結局貰っていません。ただ、インタビューに関しては、サンフランシスコまでインタビューを受けに行く旅費と2日分の宿泊費を頂けることになりました。これに向け、現在のスライドよりも詳しい説明資料の作成に注力する予定です。

*1:時々 ここに実験結果を格納予定