iconLogo
Published:2025/12/16 14:28:06

オフラインRL爆上げ!ASTROの軌道合成🚀

  1. 超要約: 爆速でデータ拡張!オフラインRLの課題を解決する、ダイナミクスを活かした軌道合成フレームワーク、ASTROがスゴいって話✨
  2. ギャル的キラキラポイント:
    • ● ダイナミクス(環境の変化)を考慮して軌道を作るから、ムダのない動きを実現できるんだって!
    • ● 今までの制限をブチ破って、色んな軌道を合成できるから、学習がめっちゃ捗るってこと💖
    • ● オープンソース(誰でも使える)になるから、色んな人が使って、さらに進化しちゃうかも!
  3. 詳細解説:
    • 背景: オフライン強化学習(RL)って、データだけで賢くする魔法🧙‍♀️みたいなもん。でも、データが少ないとダメダメなんだよね。軌道合成(データ拡張)で頑張ってたけど、イマイチだったの😭
    • 方法: ASTROは、ダイナミクスを駆使!時間的距離表現(TDR)で、軌道の繋がり方を賢く判断。ダイナミクスモデルで、環境の動きを予測して、最適な軌道をつなぎ合わせるんだって!
    • 結果: ASTROを使ったら、オフラインRLのパフォーマンスが爆上がり🎉既存の手法より全然良い結果が出たみたい!色んなRLアルゴリズムでも効果があったって!
    • 意義: これって、色んな分野で使えるってこと!ロボット🤖とか自動運転🚗とか、データ少ない問題解決!賢いAIが、もっと色んなとこで活躍できるようになるかもね!
  4. リアルでの使いみちアイデア:
    • 💡 ロボットダンス💃の練習データを増やして、キレッキレのダンスを踊れるようにする!
    • 💡 自動運転のシミュレーションデータを増やして、安全運転スキルを爆上げ🚗💨事故ゼロを目指そ!
  5. もっと深掘りしたい子へ:
    • 🔍 強化学習(きょうかがくしゅう)
    • 🔍 軌道合成(きどうごうせい)
    • 🔍 ダイナミクスモデル

続きは「らくらく論文」アプリで

ASTRO: Adaptive Stitching via Dynamics-Guided Trajectory Rollouts

Hang Yu / Di Zhang / Qiwei Du / Yanping Zhao / Hai Zhang / Guang Chen / Eduardo E. Veas / Junqiao Zhao

Offline reinforcement learning (RL) enables agents to learn optimal policies from pre-collected datasets. However, datasets containing suboptimal and fragmented trajectories present challenges for reward propagation, resulting in inaccurate value estimation and degraded policy performance. While trajectory stitching via generative models offers a promising solution, existing augmentation methods frequently produce trajectories that are either confined to the support of the behavior policy or violate the underlying dynamics, thereby limiting their effectiveness for policy improvement. We propose ASTRO, a data augmentation framework that generates distributionally novel and dynamics-consistent trajectories for offline RL. ASTRO first learns a temporal-distance representation to identify distinct and reachable stitch targets. We then employ a dynamics-guided stitch planner that adaptively generates connecting action sequences via Rollout Deviation Feedback, defined as the gap between target state sequence and the actual arrived state sequence by executing predicted actions, to improve trajectory stitching's feasibility and reachability. This approach facilitates effective augmentation through stitching and ultimately enhances policy learning. ASTRO outperforms prior offline RL augmentation methods across various algorithms, achieving notable performance gain on the challenging OGBench suite and demonstrating consistent improvements on standard offline RL benchmarks such as D4RL.

cs / cs.LG / cs.AI