iconLogo
Published:2026/1/8 14:25:41

タイトル & 超要約:Muse!長尺楽曲生成の革命✨誰でも音楽クリエイターに!

ギャル的キラキラポイント✨ ● 再現性💯データ、モデル、学習全部公開!安心して研究できるって最強💖 ● スタイル自由自在🎨ジャンルもセグメント(部分)ごとの指定もできちゃう! ● 11万曲超えのデータセット公開🎉もうデータ不足で困らないね!

詳細解説 ● 背景 長尺楽曲(長い曲)をAIで作りたいけど、データがなかったり、作り方が分かんなかったり…😭 でも、このMuseってシステムを使えば、誰でも簡単に音楽クリエイターになれちゃうかも! 研究の公平性を保つため、全部オープンにしちゃったんだって!

● 方法 Museは、QwenっていうAIモデルをベースにしてるよ! 歌詞とか音楽の構成とか、色んな情報を組み合わせて、長い曲を作っちゃうんだ🎶 しかも、細かくスタイルを指定できるから、自分の好きなように音楽を作れるのがポイント✨

● 結果 Museのおかげで、音楽の研究がめっちゃ進む予感! 他の研究者も同じデータや方法で試せるから、どんどん新しい発見がありそう😳💕 クリエイターも、自分のアイデアを自由に表現できるツールになるんじゃないかな?

続きは「らくらく論文」アプリで

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control

Changhao Jiang / Jiahao Chen / Zhenghao Xiang / Zhixiong Yang / Hanchen Wang / Jiabao Zhuang / Xinmeng Che / Jiajun Sun / Hui Li / Yifei Cao / Shihan Dou / Ming Zhang / Junjie Ye / Tao Ji / Tao Gui / Qi Zhang / Xuanjing Huang

Recent commercial systems such as Suno demonstrate strong capabilities in long-form song generation, while academic research remains largely non-reproducible due to the lack of publicly available training data, hindering fair comparison and progress. To this end, we release a fully open-source system for long-form song generation with fine-grained style conditioning, including a licensed synthetic dataset, training and evaluation pipelines, and Muse, an easy-to-deploy song generation model. The dataset consists of 116k fully licensed synthetic songs with automatically generated lyrics and style descriptions paired with audio synthesized by SunoV5. We train Muse via single-stage supervised finetuning of a Qwen-based language model extended with discrete audio tokens using MuCodec, without task-specific losses, auxiliary objectives, or additional architectural components. Our evaluations find that although Muse is trained with a modest data scale and model size, it achieves competitive performance on phoneme error rate, text--music style similarity, and audio aesthetic quality, while enabling controllable segment-level generation across different musical structures. All data, model weights, and training and evaluation pipelines will be publicly released, paving the way for continued progress in controllable long-form song generation research. The project repository is available at https://github.com/yuhui1038/Muse.

cs / cs.SD / cs.CL