iconLogo
Published:2026/1/8 12:15:40

LLMを賢くコストカット! ✨

  1. 超要約: LLMを賢く安く使う方法の研究だよ!💰

  2. ギャル的キラキラポイント✨

    • ● GPTみたいな高いLLMを、もっと安く使えるようになるってこと💖
    • ● ブラックボックス(見えない箱)でも学習できるのがスゴイ!👀
    • ● 新しい方法(GAD)で、性能も良くなるかもって期待大!🌟
  3. 詳細解説

    • 背景: LLM(大規模言語モデル)って賢いけど、使うのにお金がかかる💸 みんなもっと安く、賢く使いたいよね?
    • 方法: GPTとかの「先生」モデルの真似をして、もっと小さい「生徒」モデルを作るんだって!先生の中身は見えなくても、先生の言葉(出力)から学習できる方法だよ🎓
    • 結果: 新しい方法(GAD)で、高性能な「生徒」モデルを作れる可能性がでてきた!✨ 先生より安く、賢くできるかもね!
    • 意義(ここがヤバい♡ポイント): コストが減って、色んな場所でLLMが使えるようになるかも!🎉 サービスがもっと面白くなる予感!
  4. リアルでの使いみちアイデア💡

    • AIチャットボットを、もっと安く、賢くできるかも!🤖💕
    • 文章作成サービスが、もっと手軽に使えるようになるかも!📝✨

続きは「らくらく論文」アプリで

Black-Box On-Policy Distillation of Large Language Models

Tianzhu Ye / Li Dong / Zewen Chi / Xun Wu / Shaohan Huang / Furu Wei

Black-box distillation creates student large language models (LLMs) by learning from a proprietary teacher model's text outputs alone, without access to its internal logits or parameters. In this work, we introduce Generative Adversarial Distillation (GAD), which enables on-policy and black-box distillation. GAD frames the student LLM as a generator and trains a discriminator to distinguish its responses from the teacher LLM's, creating a minimax game. The discriminator acts as an on-policy reward model that co-evolves with the student, providing stable, adaptive feedback. Experimental results show that GAD consistently surpasses the commonly used sequence-level knowledge distillation. In particular, Qwen2.5-14B-Instruct (student) trained with GAD becomes comparable to its teacher, GPT-5-Chat, on the LMSYS-Chat automatic evaluation. The results establish GAD as a promising and effective paradigm for black-box LLM distillation.

cs / cs.CL / cs.AI