1. 超要約: LLMのプロンプト(命令文みたいなやつ)を最強にするには、評価するときのデータセット(評価サブセット)の選び方が超大事って話✨
2. ギャル的キラキラポイント: ● 評価サブセットの選び方を工夫すると、LLMの出来がマジで良くなるらしい💖 ● 「予算制約付き集合最大化問題」っていう、なんか難しそうな言葉で説明してるけど、結果はめっちゃ分かりやすい✨ ● IT企業がこの技術を使えば、新しいサービス作ったり、既存のサービスをめっちゃ良くできるチャンス到来😍
3. 詳細解説 背景 LLM(大規模言語モデル)って、AI界のカリスマ✨でも、その能力を最大限に引き出すには、どんな指示(プロンプト)を出すかが超重要!でも、そのプロンプトを良くする作業(プロンプトエンジニアリング)は、時間かかるし難しい課題だったの🥺 そこで、AIが自動でプロンプトを良くしてくれる「APO(自動プロンプト最適化)」って技術が登場したんだけど、評価サブセットの選び方が、その出来を左右するってことが判明したってワケ😉
方法 評価サブセットを選ぶ方法を、数学的にスゴくカッコよくモデル化✨ 「予算制約付き集合最大化問題」っていう、なんか難しそうなやつにして、理論的に「こう選べばイケてるプロンプト作れるよ!」って証明したらしい! 具体的には、SESSっていう新しい手法を開発したみたい🧐
続きは「らくらく論文」アプリで
Automatic prompt optimization reduces manual prompt engineering, but relies on task performance measured on a small, often randomly sampled evaluation subset as its main source of feedback signal. Despite this, how to select that evaluation subset is usually treated as an implementation detail. We study evaluation subset selection for prompt optimization from a principled perspective and propose SESS, a submodular evaluation subset selection method. We frame selection as maximizing an objective set function and show that, under mild conditions, it is monotone and submodular, enabling greedy selection with theoretical guarantees. Across GSM8K, MATH, and GPQA-Diamond, submodularly selected evaluation subsets can yield better optimized prompts than random or heuristic baselines.