【論文読み】Diversity-Driven Exploration Strategy For Deep Reinforcement Learning

NIPS2018で発表予定の論文です（多分）

Diversity-Driven Exploration Strategy for Deep Reinforcement Learning | OpenReview

↑を読みました。ICLRの短いやつなので、NIPSに通ったものとは違うと思います。

自分の研究と近いので読んでメモを残しておきたいと思います。全体的な感想としては、とてもシンプルなアプローチながらかなり効果的な印象を受けます。比較手法としては、やはりDeepmindが出したNoisy-Netでしょうか、論文中ではベースライン手法として登場しますが、論文ではatariの全てのゲームの結果が提示されていませんので、実際にどちらが良いのかはよく分かりません。　

【概要（ただの日本語訳）】

強化学習において効率的な探索は未だに難しい問題である。特に環境が膨大な状態空間、陥りやすい局所解、スパースな報酬を持つとき問題となる。この問題に対し、本稿では多様性を用いたon-policy法,off-policy法のどちらにも容易に適用できる探索法を提案し、単純に距離尺度を誤差関数に加えることで、提案手法はエージェントの探索が大幅に改善し、局所解に陥ることが妨げられることを示す。また、本稿では学習過程の安定のための適応的なスケーリング法も提案する。Atari2600のゲームを用いた実験を行い、提案手法が既存手法よりもいくつかのタスクで平均スコアと探索効率が上回ったことを示す。

【提案手法】

提案手法の目的は学習においてエージェントに異なる振る舞いをさせること、と書いてあり、多様な振る舞いをさせることで、より多様なデータを収集するアプローチです。

Diversity-driven explorationでは次のようにモデルの誤差関数に手を加えます。

$L_D = L - \mathbb E_{\pi' \in \Pi'}[\alpha D(\pi, \pi')$ ]