超要約:MLLM の弱点、テキストバイアスをV-FATで徹底分析! IT サービス爆上がり!
● MLLM が画像より言葉に騙される問題、「テキストバイアス」をズバッと指摘! ● V-FAT っていう新しいベンチマークで、テキストバイアスのせいでどれだけ間違えるか丸裸👀 ● IT 業界で大活躍! サービスやアプリがもっとスゴくなる予感!
背景 最近の MLLM は画像を見て色々できるけど、実は言葉のトリック(テキストバイアス)で間違うことも😱 例えば「リンゴは赤い」ってデータから学習してると、リンゴが青くても「リンゴは何色?」って聞くと赤って答えちゃう…! IT 業界でも、画像認識とかで間違った情報が出ちゃう可能性があるから、対策が必要なの!
方法 V-FAT っていう新しいテストを作ったんだって! テキストバイアスを「内部コーパスバイアス(学習データの中身)」と「外部命令バイアス(間違った指示)」に分けて、それぞれどれくらい影響があるかチェックするよ🧐 レベル 1~3 のテストで、モデルの弱点を徹底的に分析!
続きは「らくらく論文」アプリで
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive performance on standard visual reasoning benchmarks. However, there is growing concern that these models rely excessively on linguistic shortcuts rather than genuine visual grounding, a phenomenon we term Text Bias. In this paper, we investigate the fundamental tension between visual perception and linguistic priors. We decouple the sources of this bias into two dimensions: Internal Corpus Bias, stemming from statistical correlations in pretraining, and External Instruction Bias, arising from the alignment-induced tendency toward sycophancy. To quantify this effect, we introduce V-FAT (Visual Fidelity Against Text-bias), a diagnostic benchmark comprising 4,026 VQA instances across six semantic domains. V-FAT employs a Three-Level Evaluation Framework that systematically increases the conflict between visual evidence and textual information: (L1) internal bias from atypical images, (L2) external bias from misleading instructions, and (L3) synergistic bias where both coincide. We introduce the Visual Robustness Score (VRS), a metric designed to penalize "lucky" linguistic guesses and reward true visual fidelity. Our evaluation of 12 frontier MLLMs reveals that while models excel in existing benchmarks, they experience significant visual collapse under high linguistic dominance.