iconLogo
Published:2025/10/23 6:59:36

PRMツリー検索、数学推論を爆上げ🚀

超要約: PRMで数学を解くAI、ツリー検索でめっちゃ賢く!

ギャル的キラキラポイント✨ ● PRM (プロセス報酬モデル) ってのが、CoT(思考連鎖)の各ステップを評価するの、イケてる🌟 ● ツリー検索で、いろんな解法を試せるから、賢さレベルUP⤴ ● IT企業がAIサービス作るとき、めっちゃ役立つ情報満載💖

詳細解説 ● 背景 LLM(大規模言語モデル)って賢いけど、数学の問題を解くのはちょっと苦手だったり🤔 でも、CoT(思考連鎖)でステップを踏むと、結構解けるようになるんだよね! ただ、BoNって手法は、CoTの最初から最後までを評価するから、イマイチだったの😥

● 方法 そこで、PRM(プロセス報酬モデル)とツリー検索を組み合わせることにしたんだって! PRMはCoTの各ステップを評価できるから、ツリー検索でいろんな解法を試せるようになるじゃん? でも、ツリー検索は複雑になりがちだから、PRMの評価が重要になってくるってワケ😎

続きは「らくらく論文」アプリで

Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs

Tristan Cinquin / Geoff Pleiss / Agustinus Kristiadi

While chain-of-thought prompting with Best-of-N (BoN) selection has become popular for mathematical reasoning in large language models (LLMs), its linear structure fails to capture the branching and exploratory nature of complex problem-solving. In this work, we propose an adaptive algorithm to maximize process reward model (PRM) scores over the intractable action space, and investigate whether PRM-guided tree search can improve mathematical reasoning by exploring multiple partial solution paths. Across $23$ diverse mathematical problems using Qwen2.5-Math-7B-Instruct with its associated PRM as a case study, we find that: (1) PRM-guided tree search shows no statistically significant improvements over BoN despite higher costs, (2) Monte Carlo tree search and beam search outperform other PRM-guided tree search methods, (3) PRMs poorly approximate state values and their reliability degrades with reasoning depth, and (4) PRMs generalize poorly out of distribution. This underperformance stems from tree search's greater reliance on unreliable PRM scores, suggesting different reward modeling is necessary before tree search can effectively enhance mathematical reasoning in LLMs.

cs / cs.LG / cs.AI