タイトル & 超要約:ベンガル語ディープフェイク検出!ゼロから始めるAI🛡️
ギャル的キラキラポイント✨ ● ベンガル語(バングラ語)のディープフェイク音声を見破るAIを作ったってこと💖 ● 英語とかじゃなくて、低リソース言語(マイナーな言葉)に対応したのがスゴイ✨ ● AIのセキュリティ対策が、ますます進化するってワケね😉
詳細解説 ● 背景 最近、AIで本物そっくりの声が作れる「ディープフェイク音声」が問題になってる😱。特にベンガル語みたいな、データが少ない言語だと対策が遅れてるんだよね💦 この研究は、そんなベンガル語のディープフェイクを見つけるAIを作ろう!って話だよ。
● 方法 公開されてる「BanglaFake」っていうデータを使って、色んなAIモデルを試したんだって😎!「Wav2Vec2-XLSR-53」とか「Whisper」とか、色々あるんだけど、最初はそのまま使ってみて、それからベンガル語のデータで追加学習(ファインチューニング)したら、精度が爆上がりしたんだってさ!
● 結果 AIモデルをベンガル語データでチューニングしたら、ディープフェイク音声を見抜く能力がめっちゃ上がったみたい👏!これによって、ベンガル語で詐欺(さぎ)とか情報操作(じょうほうそうさ)とか、悪いことに使われるのを防げるようになるかも⁉️
続きは「らくらく論文」アプリで
The rapid growth of speech synthesis and voice conversion systems has made deepfake audio a major security concern. Bengali deepfake detection remains largely unexplored. In this work, we study automatic detection of Bengali audio deepfakes using the BanglaFake dataset. We evaluate zeroshot inference with several pretrained models. These include Wav2Vec2-XLSR-53, Whisper, PANNsCNN14, WavLM and Audio Spectrogram Transformer. Zero-shot results show limited detection ability. The best model, Wav2Vec2-XLSR-53, achieves 53.80% accuracy, 56.60% AUC and 46.20% EER. We then f ine-tune multiple architectures for Bengali deepfake detection. These include Wav2Vec2-Base, LCNN, LCNN-Attention, ResNet18, ViT-B16 and CNN-BiLSTM. Fine-tuned models show strong performance gains. ResNet18 achieves the highest accuracy of 79.17%, F1 score of 79.12%, AUC of 84.37% and EER of 24.35%. Experimental results confirm that fine-tuning significantly improves performance over zero-shot inference. This study provides the first systematic benchmark of Bengali deepfake audio detection. It highlights the effectiveness of f ine-tuned deep learning models for this low-resource language.