2018-10-13から1日間の記事一覧

pytorchでnoisy networkを実装

元の論文はこちら [1706.10295] Noisy Networks for Exploration 常にその時点で価値の高い行動を取り続けた場合、最初に価値が高くなった行動が取られ続け、別の行動を取る可能性がなくなってしまう。それを防ぐため元のDQNではε-greedy法と呼ばれる手法を…