iconLogo
Published:2025/8/22 22:02:49

最強ギャルが教える!未来の3D認識、爆誕☆

超要約:未来の車やロボが賢くなる!3D空間を自由自在に理解するスゴ技✨

🌟 ギャル的キラキラポイント✨ ● 未知のモノも属性(動きとか!)もぜーんぶ見つけちゃう、最強フレームワーク「OVODA」爆誕!🥳 ● LiDAR(レーザーみたいなセンサー)とか写真とか、色んな情報をごちゃ混ぜにして認識力UP⤴️ ● 自動運転とかロボットが、もっと賢くなって、私たちの生活が激変しちゃうかも💖

詳細解説

● 背景 最近の車とかロボ、周りのモノを3Dで認識する技術がめっちゃ重要になってるんだけど、従来のやり方だと、あらかじめ決められたモノしか分かんなかったの😞 でも、OVODAは違う!「オープンボキャブラリー」って言って、初めて見るモノでも、テキストで「あれは何?」って聞けば、分かっちゃうスグレモノなんだよね💖 しかも、モノの動きとか、周りの状況みたいな「属性」も同時に理解できるから、マジでスゴくない?

● 方法 OVODAは、LiDARとか画像とか、色んな情報を組み合わせて、3D空間を認識するよ!✨ まずは、OneLLMっていうAIを使って、テキストと3Dの特徴を合体させるんだって!そんで、特徴をさらに掛け合わせて、より正確な認識を目指すんだって!さらに、属性をちゃんと認識するために、特殊なテクニックも使ってるらしい😎 どんなテクニックかは、論文を読んでみてね!

続きは「らくらく論文」アプリで

Towards Open-Vocabulary Multimodal 3D Object Detection with Attributes

Xinhao Xiang / Kuan-Chuan Peng / Suhas Lohit / Michael J. Jones / Jiawei Zhang

3D object detection plays a crucial role in autonomous systems, yet existing methods are limited by closed-set assumptions and struggle to recognize novel objects and their attributes in real-world scenarios. We propose OVODA, a novel framework enabling both open-vocabulary 3D object and attribute detection with no need to know the novel class anchor size. OVODA uses foundation models to bridge the semantic gap between 3D features and texts while jointly detecting attributes, e.g., spatial relationships, motion states, etc. To facilitate such research direction, we propose OVAD, a new dataset that supplements existing 3D object detection benchmarks with comprehensive attribute annotations. OVODA incorporates several key innovations, including foundation model feature concatenation, prompt tuning strategies, and specialized techniques for attribute detection, including perspective-specified prompts and horizontal flip augmentation. Our results on both the nuScenes and Argoverse 2 datasets show that under the condition of no given anchor sizes of novel classes, OVODA outperforms the state-of-the-art methods in open-vocabulary 3D object detection while successfully recognizing object attributes. Our OVAD dataset is released here: https://doi.org/10.5281/zenodo.16904069 .

cs / cs.CV