iconLogo
Published:2026/1/4 23:12:23

VLM が「見て」行動! ギャルの未来、キタコレ💖

  1. 超要約: VLM の行動力テスト! ロボが賢くなる未来✨
  2. ギャル的キラキラポイント✨
    • ● テキストなしで、見て行動するAIを評価👀
    • ● 人間の価値観(安全とか!)も考慮するAI🤖
    • ● ロボや自動運転がもっと賢くなるかも🚗
  3. 詳細解説
    • 背景: 今までのAI(VLM)は、言葉で指示しないと動けなかったの!でも、私たちの日常は言葉だけじゃないじゃん?👀
    • 方法: 視覚情報だけで、どんな行動ができるか試す新しいテストを作った!しかも、色んな状況に対応できるように、色んなパターンで試すんだって!
    • 結果: AIが、まるで人間みたいに状況を理解して、適切な行動ができるか評価できるようになったってこと!すごくな〜い?
    • 意義: ロボや自動運転が、もっと賢くなって、私たちの生活がめっちゃ便利になるかも!💖 危険回避とかもできるようになるから、安心安全だね!
  4. リアルでの使いみちアイデア💡
    • 街の防犯カメラが、不審者を自動で発見! ギャルも安心安全💖
    • お掃除ロボが、もっと賢く動いてくれるようになるかも!✨
  5. もっと深掘りしたい子へ🔍
    • VLM (Vision-Language Model)
    • AI エージェント
    • 自律行動

続きは「らくらく論文」アプリで

VisualActBench: Can VLMs See and Act like a Human?

Daoan Zhang / Pai Liu / Xiaofei Zhou / Yuan Ge / Guangchen Lan / Jing Bi / Christopher Brinton / Ehsan Hoque / Jiebo Luo

Vision-Language Models (VLMs) have achieved impressive progress in perceiving and describing visual environments. However, their ability to proactively reason and act based solely on visual inputs, without explicit textual prompts, remains underexplored. We introduce a new task, Visual Action Reasoning, and propose VisualActBench, a large-scale benchmark comprising 1,074 videos and 3,733 human-annotated actions across four real-world scenarios. Each action is labeled with an Action Prioritization Level (APL) and a proactive-reactive type to assess models' human-aligned reasoning and value sensitivity. We evaluate 29 VLMs on VisualActBench and find that while frontier models like GPT4o demonstrate relatively strong performance, a significant gap remains compared to human-level reasoning, particularly in generating proactive, high-priority actions. Our results highlight limitations in current VLMs' ability to interpret complex context, anticipate outcomes, and align with human decision-making frameworks. VisualActBench establishes a comprehensive foundation for assessing and improving the real-world readiness of proactive, vision-centric AI agents.

cs / cs.CV