【DRL, Montezuma】GCPの無料試用期間がほぼ終了
GCPの無料試用期間がほぼ終了したので、最後の学習結果を下記に置きました。
正確には、残り日数が6日で、残りクレジットが420円となりました。上記学習結果を見ると、gcp10だけは今後も訪問部屋が増える可能性があるので、これだけを残し、残りの仮想サーバー7台を全て削除しました。これで、仮想サーバーが残り1台だけになったので、6日間は使えると思います*1。
ちなみに、gcp10~gcp70は、全て、thread毎の多様性を持たせて学習を安定させるために、pseudo-rewardを計算するときの指数をthread毎に少し変えてみました(2.0 + thread番号(0〜7)*0.7)。
しかし、gcp20, gcp30は、途中で急激にSCOREが0点になって、その後も回復していません。結局、多様性の効果がどの程度あったのか分かりませんでした。
統計的に有意な結果は示すには、条件を変えてもっと沢山試す必要があると思います。また、thread毎の環境も、もっと変えて試した方がよいかもしれません。例えば、上記記載の指数の変化の幅をもっと大きくするとか、pseudo-rewardの係数であるbetaも変化させるとか。
ただ、今とのころ、実験を試すプラットフォームが無くなったので、当面は、別のことに注力しようと思います。誰か、ITリソースを湯水のように提供できる人/団体がいらっしゃるとありがたいのですが...
そういえば、以前に、OpenAIから$250分のAWSクレジットを貰えそうだという話を書きましたが、OpenAIとのインタビューの話に紛れて、結局貰っていません。ただ、インタビューに関しては、サンフランシスコまでインタビューを受けに行く旅費と2日分の宿泊費を頂けることになりました。これに向け、現在のスライドよりも詳しい説明資料の作成に注力する予定です。