iconLogo
Published:2026/1/2 18:18:27

最強ギャル、ドメインシフトをぶっ飛ばす!AI モデルのテスト対策、爆誕☆

  1. 超要約 AI モデルのテストでの"あるある"問題、ドメインシフトを、クラス情報と OT で解決!テストでも最強モデル目指すよ!

  2. ギャル的キラキラポイント✨ ● ドメインシフト(データのクセの違い)に負けないモデルを作る!💪 ● 擬似ラベルの"あるある" 失敗を OT で回避!賢すぎ!🧠 ● ゼロショ(事前学習なし)能力をキープしつつ、テストでさらに強く!✨

  3. 詳細解説

    • 背景 画像とテキストを理解する AI モデル、VLMs が大活躍!でも、テスト環境(色んなカメラとか)で性能が落ちる問題が…。これはドメインシフトっていう、データの違いが原因なの!😢
    • 方法 クラス(犬とか猫)の情報と、**最適輸送(OT)**っていう計算を使って、テストデータに合わせた擬似ラベルを作るの!さらに、色んなテキストプロンプトで学習して、モデルを強化するよ!✨
    • 結果 ドメインシフトに強くなって、テストでの精度が爆上がり!ラベル付けとかの余計なコストもかからないから、マジ神!😇
    • 意義(ここがヤバい♡ポイント) 色んな環境で AI が使えるようになるから、自動運転とか医療とか、色んな分野で AI が活躍できるようになる!IT 業界もアゲアゲだね!💕
  4. リアルでの使いみちアイデア💡

    • SNS で、色んな写真に合った検索結果を表示するアプリ!ギャルの写真もバッチリ認識できるね!🤳
    • EC サイトで、商品の写真がどんな環境でもキレイに見えるように!売上アップ間違いなし!🛍️

続きは「らくらく論文」アプリで

Semantic Anchor Transport: Robust Test-Time Adaptation for Vision-Language Models

Shambhavi Mishra / Julio Silva-Rodriguez / Ismail Ben Ayed / Marco Pedersoli / Jose Dolz

Large pre-trained vision-language models (VLMs), such as CLIP, have shown unprecedented zero-shot performance across a wide range of tasks. Nevertheless, these models may be unreliable under distributional shifts, as their performance is significantly degraded. In this work, we investigate how to efficiently utilize class text information to mitigate distribution drifts encountered by VLMs during inference. In particular, we propose generating pseudo-labels for the noisy test-time samples by aligning visual embeddings with reliable, text-based semantic anchors. Specifically, to maintain the regular structure of the dataset properly, we formulate the problem as a batch-wise label assignment, which is efficiently solved using Optimal Transport. Our method, Semantic Anchor Transport (SAT), utilizes such pseudo-labels as supervisory signals for test-time adaptation, yielding a principled cross-modal alignment solution. Moreover, SAT further leverages heterogeneous textual clues, with a multi-template distillation approach that replicates multi-view contrastive learning strategies in unsupervised representation learning without incurring additional computational complexity. Extensive experiments on multiple popular test-time adaptation benchmarks presenting diverse complexity empirically show the superiority of SAT, achieving consistent performance gains over recent state-of-the-art methods, yet being computationally efficient.

cs / cs.CV