超要約:EMG(筋肉の電気信号)から声を生み出す技術を、データ不足を克服してパワーアップさせる研究だよ!
✨ ギャル的キラキラポイント ✨ ● 少ないデータでもOK!自己学習(じこがくしゅう)で賢くなるからスゴくない?😍 ● 合成データ(フェイクデータ)も賢く使って、色んな声に対応できるようにするんだって!😳 ● 医療とかエンタメ(ゲームとか!)とか、色んな分野で活躍できる未来が楽しみだね~🥰
詳細解説いくよ~! ● 背景 声が出せない人でも、筋肉の動きを読み取って声を出せる技術があるの!それがEMG-to-speech! でもデータが少ないと、ちゃんと声が出せないっていう問題があったんだよね😢
● 方法 自己学習っていう、モデル(AIちゃん)が自分で学習する仕組みを使って、もっと賢くする作戦! 合成データも作って、色んな声が出せるように頑張ってるんだって!✨
続きは「らくらく論文」アプリで
Voiced Electromyography (EMG)-to-Speech (V-ETS) models reconstruct speech from muscle activity signals, facilitating applications such as neurolaryngologic diagnostics. Despite its potential, the advancement of V-ETS is hindered by a scarcity of paired EMG-speech data. To address this, we propose a novel Confidence-based Multi-Speaker Self-training (CoM2S) approach, along with a newly curated Libri-EMG dataset. This approach leverages synthetic EMG data generated by a pre-trained model, followed by a proposed filtering mechanism based on phoneme-level confidence to enhance the ETS model through the proposed self-training techniques. Experiments demonstrate our method improves phoneme accuracy, reduces phonological confusion, and lowers word error rate, confirming the effectiveness of our CoM2S approach for V-ETS. In support of future research, we will release the codes and the proposed Libri-EMG dataset-an open-access, time-aligned, multi-speaker voiced EMG and speech recordings.