iconLogo
Published:2026/1/1 19:44:40

タイトル & 超要約:LLM評価の矛盾(サイクリック選好)をPGEDで解決!✨

ギャル的キラキラポイント✨ ● LLM(AI)の評価、マジで難しい問題を解決するんだって!😳 ● PGEDっていう新しい方法で、評価結果がブレないようにするんだね!賢い!💖 ● AIをもっと役立てるために、すっごい貢献できそうじゃん?😍

詳細解説 ● 背景 LLM(大規模言語モデル)って、すごい進化してるけど、その出来を評価するのって一苦労💦 評価方法によっては、AはBより良いけど、BはCより良い、なのにCはAより良い…みたいな矛盾(サイクリック選好)が起きちゃうの!これじゃ、ホントに良いLLMがわかんないじゃん?

● 方法 そこで登場するのが、PGED(Preference Graph Ensemble and Denoising)!複数のLLMを評価者として使って、評価のグラフを作るの。そして、そのグラフからノイズ(変な情報)を取り除いて、一貫性のある評価結果を得るんだって!✨

● 結果 PGEDを使うと、評価結果が安定するだけでなく、色んなLLMの応用(モデルのランキングとか、データ選びとか)で、今までのやり方より良い結果が出ることがわかったの!しかも、すごいLLMじゃなくても、ちょっと小さめのLLMの組み合わせでも、イケるらしい!😳

続きは「らくらく論文」アプリで

Towards Acyclic Preference Evaluation of Language Models via Multiple Evaluators

Zhengyu Hu / Jieyu Zhang / Zhihan Xiong / Alexander Ratner / Kaize Ding / Ranjay Krishna

Despite the remarkable success of Large Language Models (LLMs), evaluating their outputs' quality regarding preference remains a critical challenge. While existing works usually leverage a strong LLM as the judge for comparing LLMs' response pairwisely, such a single-evaluator approach is vulnerable to cyclic preference, i.e., output A is better than B, B than C, but C is better than A, causing contradictory evaluation results. To address this, we introduce PGED (Preference Graph Ensemble and Denoising), a novel approach that leverages multiple model-based evaluators to construct preference graphs, and then ensembles and denoises these graphs for acyclic, non-contradictory evaluation results. We provide theoretical guarantees for our framework, demonstrating its efficacy in recovering the ground truth preference structure. Extensive experiments on ten benchmarks demonstrate PGED's superiority in three applications: 1) model ranking for evaluation, 2) response selection for test-time scaling, and 3) data selection for model fine-tuning. Notably, PGED combines small LLM evaluators (e.g., Llama3-8B, Mistral-7B, Qwen2-7B) to outperform strong ones (e.g., Qwen2-72B), showcasing its effectiveness in enhancing evaluation reliability and improving model performance.

cs / cs.CL / cs.AI / cs.LG