超要約:ロボットに過去の経験を活かす「MemER」ってスゴくない?✨
ギャル的キラキラポイント✨ ● ロボットが過去の映像を覚えて、賢く動けるようになるって、まるで人間みたい💖 ● 複雑(ふくざつ)な作業も、MemERのおかげでスムーズに✨ 生産性UPも夢じゃない🎵 ● 色んな分野(ぶんや)で活躍(かつやく)できる可能性大!未来が楽しみだね~😍
詳細解説 ● 背景 ロボットって、賢いけど過去のことは忘れがちだったんだよね💦 長い動画を見ても、全部処理(しょり)するのは大変だったみたい😩 でも人間は、過去の経験を活かして色んなことできるじゃん?💡 ● 方法 そこで登場(とうじょう)するのが「MemER」!経験検索(けいけんけんさく)を使って、過去の映像から必要な情報だけを引っ張り出してくるんだって😲 しかも、それを高レベルと低レベルの2つの段階(だんかい)で処理するから、効率的(こうりつてき)なんだって! ● 結果 MemERのおかげで、ロボットは長期的な記憶を使って、複雑な作業もできるようになるみたい👏 計算コストも抑えられて、さらに賢くなるって最高じゃん?🌟 ● 意義(ここがヤバい♡ポイント) MemERは、製造業(せいぞうぎょう)とか物流(ぶつりゅう)とか、色んな分野で活躍できる可能性大!ロボットがどんどん賢くなって、私たちの生活がもっと便利になるかも~💕
リアルでの使いみちアイデア💡
続きは「らくらく論文」アプリで
Humans routinely rely on memory to perform tasks, yet most robot policies lack this capability; our goal is to endow robot policies with the same ability. Naively conditioning on long observation histories is computationally expensive and brittle under covariate shift, while indiscriminate subsampling of history leads to irrelevant or redundant information. We propose a hierarchical policy framework, where the high-level policy is trained to select and track previous relevant keyframes from its experience. The high-level policy uses selected keyframes and the most recent frames when generating text instructions for a low-level policy to execute. This design is compatible with existing vision-language-action (VLA) models and enables the system to efficiently reason over long-horizon dependencies. In our experiments, we finetune Qwen2.5-VL-7B-Instruct and $\pi_{0.5}$ as the high-level and low-level policies respectively, using demonstrations supplemented with minimal language annotations. Our approach, MemER, outperforms prior methods on three real-world long-horizon robotic manipulation tasks that require minutes of memory. Videos and code can be found at https://jen-pan.github.io/memer/.