超要約: テキスト情報で医療画像を賢く領域分割!ドメインの壁をブチ壊すUDA技術だよ♡
● CTとかMRIの画像、モダリティ(種類)が違っても大丈夫🙆♀️✨ ● テキスト(言葉)で画像の特徴をめっちゃ理解できるんだね!賢い! ● ラベルなし(アノテーション)でも、高精度なセグメンテーションができるって神🥺💕
背景 医療画像診断って、マジ大事じゃん?CTとかMRIで病気をチェックするんだけど、画像の種類(モダリティ)とか、機械によって画像が違うから、AIがうまく認識できないことがあったの😢。そこで、色んな画像に対応できるように、AIをもっと賢くしたい!って研究だよ💖
方法 TCSA-UDAっていう新しいフレームワークを使うよ!画像と一緒に、その画像の説明テキスト(クラス名とか)もAIに教えてあげるの💡。テキスト情報を使って、違う種類の画像でも、同じ場所を正しく認識できるようにするんだって!すごい😳💕
続きは「らくらく論文」アプリで
Unsupervised domain adaptation for medical image segmentation remains a significant challenge due to substantial domain shifts across imaging modalities, such as CT and MRI. While recent vision-language representation learning methods have shown promise, their potential in UDA segmentation tasks remains underexplored. To address this gap, we propose TCSA-UDA, a Text-driven Cross-Semantic Alignment framework that leverages domain-invariant textual class descriptions to guide visual representation learning. Our approach introduces a vision-language covariance cosine loss to directly align image encoder features with inter-class textual semantic relations, encouraging semantically meaningful and modality-invariant feature representations. Additionally, we incorporate a prototype alignment module that aligns class-wise pixel-level feature distributions across domains using high-level semantic prototypes. This mitigates residual category-level discrepancies and enhances cross-modal consistency. Extensive experiments on challenging cross-modality cardiac, abdominal, and brain tumor segmentation benchmarks demonstrate that our TCSA-UDA framework significantly reduces domain shift and consistently outperforms state-of-the-art UDA methods, establishing a new paradigm for integrating language-driven semantics into domain-adaptive medical image analysis.