iconLogo
Published:2025/12/4 0:07:08

タイトル & 超要約:NEUBAYでオフラインRLが進化✨ データの質に負けないAI!

🌟 ギャル的キラキラポイント✨ ● 過去のデータだけで賢くなれる「オフラインRL」がすごい!😳 ● データがイマイチでもOK!NEUBAYは賢く学習するよ🎵 ● ロボットとか医療とか、色んな分野で活躍できるって期待大💖

詳細解説 ● 背景 世の中には、データさえあれば賢く学習する「強化学習(RL)」っていうAIがあるんだけど、実世界で使うのはデータ集めが大変だったりする😭 そこで「オフラインRL」っていう、過去のデータだけで学習するスゴ技が注目されてるの!でも、既存のオフラインRLは、データに偏りがあったりすると、上手く学習できないって弱点があったんだよね💦

● 方法 そこで登場したのが、今回紹介する「NEUBAY」ってやつ!NEUBAYは、ベイジアンっていう考え方を使ってて、データの「不確実性」を考慮して学習するんだって!😳 つまり、データがちょっと悪くても、ちゃんと学習できるってこと!アンサンブルっていう、色んなモデルを組み合わせる方法で、長い期間の計画も立てられるように工夫されてるみたい💖

● 結果 NEUBAYのおかげで、オフラインRLがもっと色んなことに使えるようになるって期待されてるよ! 低品質なデータでもOKだから、色んな分野で使えるようになるし、長期的な計画も立てやすくなるから、ロボット🤖とか医療🩺とか、色んな分野で活躍できるポテンシャルを秘めてるってわけ🌟

続きは「らくらく論文」アプリで

Long-Horizon Model-Based Offline Reinforcement Learning Without Conservatism

Tianwei Ni / Esther Derman / Vineet Jain / Vincent Taboga / Siamak Ravanbakhsh / Pierre-Luc Bacon

Popular offline reinforcement learning (RL) methods rely on conservatism, either by penalizing out-of-dataset actions or by restricting planning horizons. In this work, we question the universality of this principle and instead revisit a complementary one: a Bayesian perspective. Rather than enforcing conservatism, the Bayesian approach tackles epistemic uncertainty in offline data by modeling a posterior distribution over plausible world models and training a history-dependent agent to maximize expected rewards, enabling test-time generalization. We first illustrate, in a bandit setting, that Bayesianism excels on low-quality datasets where conservatism fails. We then scale the principle to realistic tasks, identifying key design choices, such as layer normalization in the world model and adaptive long-horizon planning, that mitigate compounding error and value overestimation. These yield our practical algorithm, Neubay, grounded in the neutral Bayesian principle. On D4RL and NeoRL benchmarks, Neubay generally matches or surpasses leading conservative algorithms, achieving new state-of-the-art on 7 datasets. Notably, it succeeds with planning horizons of several hundred steps, challenging common belief. Finally, we characterize when Neubay is preferable to conservatism, laying the foundation for a new direction in offline and model-based RL.

cs / cs.LG