iconLogo
Published:2026/1/2 2:42:04

VNS-SAM爆誕!見えにくい物体も余裕で認識しちゃう最強モデル☆

超要約:見えにくい物体(VNS)の画像セグメンテーション(物体を切り出すこと)を、SAMってモデルを改良して精度爆上げしたよ!ゼロショット性能もそのままだからスゴイ✨

✨ ギャル的キラキラポイント ✨ ● カモフラージュとか、医療画像みたいな見えづらい画像も、VNS-SAMなら余裕で物体を認識できちゃうんだって! ● SAMっていう元々スゴイモデルをベースにしてるから、学習してない物体(ゼロショット)でもセグメンテーションできちゃうところが最強💖 ● 汎用性が高いから、色んな分野で使えるってのがめっちゃ良くない?自動運転とか医療とか、色々捗りそうじゃん?

詳細解説 ● 背景 画像セグメンテーション(画像から特定の物体を切り出すこと)って、色んな分野で超重要じゃん?特にSAMってモデルは、色んな物体をゼロショットでセグメンテーションできるから、めっちゃ注目されてるの!でも、カモフラージュされた物体とか、コントラストが低い画像だと、精度が落ちちゃうっていう課題があったんだよね💦

● 方法 VNS-SAMは、その課題を解決するために、SAMを改良したモデルだよ!具体的には、VNSシーン(見えにくいシーン)の特徴をちゃんと捉えられるようにしたり、SAMの元々の良いところ(低レベルの特徴)を最大限に活かせるようにしたんだって!✨

続きは「らくらく論文」アプリで

Boosting Segment Anything Model to Generalize Visually Non-Salient Scenarios

Guangqian Guo / Pengfei Chen / Yong Guo / Huafeng Chen / Boqiang Zhang / Shan Gao

Segment Anything Model (SAM), known for its remarkable zero-shot segmentation capabilities, has garnered significant attention in the community. Nevertheless, its performance is challenged when dealing with what we refer to as visually non-salient scenarios, where there is low contrast between the foreground and background. In these cases, existing methods often cannot capture accurate contours and fail to produce promising segmentation results. In this paper, we propose Visually Non-Salient SAM (VNS-SAM), aiming to enhance SAM's perception of visually non-salient scenarios while preserving its original zero-shot generalizability. We achieve this by effectively exploiting SAM's low-level features through two designs: Mask-Edge Token Interactive decoder and Non-Salient Feature Mining module. These designs help the SAM decoder gain a deeper understanding of non-salient characteristics with only marginal parameter increments and computational requirements. The additional parameters of VNS-SAM can be optimized within 4 hours, demonstrating its feasibility and practicality. In terms of data, we established VNS-SEG, a unified dataset for various VNS scenarios, with more than 35K images, in contrast to previous single-task adaptations. It is designed to make the model learn more robust VNS features and comprehensively benchmark the model's segmentation performance and generalizability on VNS scenarios. Extensive experiments across various VNS segmentation tasks demonstrate the superior performance of VNS-SAM, particularly under zero-shot settings, highlighting its potential for broad real-world applications. Codes and datasets are publicly available at https://guangqian-guo.github.io/VNS-SAM.

cs / cs.CV