最新論文をギャル的に超要約すると…環境音(周りの音)の偽物を見破る技術がスゴくなったってコト!VRとかメディア制作のセキュリティがマジで強化される予感💖
✨ ギャル的キラキラポイント ✨
● 環境音の偽物(ディープフェイク)を見つけるのがマジで得意になったみたい!🔊 既存の技術じゃ難しかったとこもカバー💖 ● BEATsとAASISTっていう、すごい技術を合体させた「BEAT2AASIST」っていうモデルがスゴイんだって!🤖✨ ● データ拡張とかマルチレイヤー融合とか、細かい工夫で、どんな環境音にも対応できるようになったみたい!😎👍
続きは「らくらく論文」アプリで
Recent advances in audio generation have increased the risk of realistic environmental sound manipulation, motivating the ESDD 2026 Challenge as the first large-scale benchmark for Environmental Sound Deepfake Detection (ESDD). We propose BEAT2AASIST which extends BEATs-AASIST by splitting BEATs-derived representations along frequency or channel dimension and processing them with dual AASIST branches. To enrich feature representations, we incorporate top-k transformer layer fusion using concatenation, CNN-gated, and SE-gated strategies. In addition, vocoder-based data augmentation is applied to improve robustness against unseen spoofing methods. Experimental results on the official test sets demonstrate that the proposed approach achieves competitive performance across the challenge tracks.