テキストから動画を、要素の一貫性を保って作れるってマジ!?✨
● 登場人物とか小道具が、動画全体でずーっと同じ見た目になるってこと!🤩 ● 色んなシーン(ショット)を繋いでも、世界観が崩れないって最強じゃん?✨ ● 広告とか教育動画が、もっとかわいく&見やすくなるってことだね!💖
最近のAI(人工知能)技術で、テキストから動画が作れるようになったけど、シーンが変わると、キャラクターの顔が変わったり、小道具が消えたり…困っちゃうことがあったの😥。でも、この研究は、そんな悩みを解決してくれるかも!
「VideoMemory」っていう新しい技術を使ったんだって!👀✨まるで記憶装置みたいに、登場人物、小道具、背景の情報をしっかり覚えて、次のシーンでも同じように再現するらしい! 具体的には、ダイナミックメモリバンク(DMB)を使って、要素の状態を追跡&更新するんだって。
色んな実験をした結果、VideoMemoryは他の方法よりも、ずーっと一貫性のある動画を作れたんだって!🎉 例えば、ハリーポッターみたいな、物語のある動画も、ちゃんと作れるみたい!
続きは「らくらく論文」アプリで
Maintaining consistent characters, props, and environments across multiple shots is a central challenge in narrative video generation. Existing models can produce high-quality short clips but often fail to preserve entity identity and appearance when scenes change or when entities reappear after long temporal gaps. We present VideoMemory, an entity-centric framework that integrates narrative planning with visual generation through a Dynamic Memory Bank. Given a structured script, a multi-agent system decomposes the narrative into shots, retrieves entity representations from memory, and synthesizes keyframes and videos conditioned on these retrieved states. The Dynamic Memory Bank stores explicit visual and semantic descriptors for characters, props, and backgrounds, and is updated after each shot to reflect story-driven changes while preserving identity. This retrieval-update mechanism enables consistent portrayal of entities across distant shots and supports coherent long-form generation. To evaluate this setting, we construct a 54-case multi-shot consistency benchmark covering character-, prop-, and background-persistent scenarios. Extensive experiments show that VideoMemory achieves strong entity-level coherence and high perceptual quality across diverse narrative sequences.