超要約: TTS(テキスト to スピーチ)で、色んな言語が混ざった音声認識をめっちゃ良くするよ!✨
● データ不足をTTSで解決!音声データ、いくらあっても困らないもんね~💖 ● コードスイッチング音声、自然に生成できるのがスゴすぎ!👏 ● 多言語対応サービス、ますます進化しちゃうってコト!✨
背景 音声認識って、すごい技術じゃん? でも、色んな言語が混ざった「コードスイッチング」音声は苦手なのよね😭 データ不足が原因で、精度がイマイチだったり… IT業界でも、多言語対応のサービスは増えてるから、この課題を解決したい!
方法 TTSモデルを使って、色んなコードスイッチング音声を生成しちゃお!🗣️ それをASR(音声認識)モデルの学習データとして使うんだって! 高品質なTTSモデルを使うのがポイントみたい✨
続きは「らくらく論文」アプリで
Automatic speech recognition (ASR) for conversational code-switching speech remains challenging due to the scarcity of realistic, high-quality labeled speech data. This paper explores multilingual text-to-speech (TTS) models as an effective data augmentation technique to address this shortage. Specifically, we fine-tune the multilingual CosyVoice2 TTS model on the SEAME dataset to generate synthetic conversational Chinese-English code-switching speech, significantly increasing the quantity and speaker diversity of available training data. Our experiments demonstrate that augmenting real speech with synthetic speech reduces the mixed error rate (MER) from 12.1 percent to 10.1 percent on DevMan and from 17.8 percent to 16.0 percent on DevSGE, indicating consistent performance gains. These results confirm that multilingual TTS is an effective and practical tool for enhancing ASR robustness in low-resource conversational code-switching scenarios.