iconLogo
Published:2025/11/7 22:38:06

LLMのコード理解度を測る✨ COREベンチマーク登場!

  1. 超要約: LLMのコード理解度を測るテスト「CORE」を紹介💖

  2. ギャル的キラキラポイント✨ ● LLMがコードの「意味」をちゃんと理解してるか評価するの!賢すぎ!😎 ● データとか制御とか、コードのいろんな関係性をチェックするんだって👀 ● バグ探しとかコード生成とか、色んなことに役立つってこと!すごーい🙌

  3. 詳細解説

    • 背景: 最近のLLMはコード生成とかすごいけど、本当にコードの意味を分かってるか謎じゃん?🤔そこで、LLMのコード理解力を試すベンチマーク「CORE」が開発されたんだって!
    • 方法: C++, Java, Pythonのコードで、データ依存関係とか制御依存関係とか、情報フローを分析するタスクを用意💻 LLMがどれだけ正しく解析できるか評価するよ!
    • 結果: LLMはデータ依存関係は得意だけど、複雑な情報フローは苦手みたい😥 でも、COREのおかげでLLMの弱点が分かったから、これからもっと賢くなるかもね!
    • 意義: バグ発見とか、セキュリティ対策とか、LLMのコード理解度が上がると、色んな事がもっと良くなるってこと!✨ 開発効率も上がるし、最高じゃん?
  4. リアルでの使いみちアイデア💡

    • 自分のコードをAIにチェックしてもらって、バグとかセキュリティホールを見つける!😎
    • 未来の彼氏👩‍💻に、「このコード、なんか変だよ?」ってAIが教えてくれるようになるかも?!😳

続きは「らくらく論文」アプリで

CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks

Danning Xie / Mingwei Zheng / Xuwei Liu / Jiannan Wang / Chengpeng Wang / Lin Tan / Xiangyu Zhang

Large language models (LLMs) have been widely adopted across diverse domains of software engineering, such as code generation, program repair, and vulnerability detection. These applications require understanding beyond surface-level code patterns: value propagation, control flow, and interdependence between program elements. However, existing benchmarks primarily evaluate end-to-end outcomes, such as whether code is correctly repaired or generated, leaving the models' ability for program semantic reasoning underexplored. This work presents CORE, a high-quality, human-verified benchmark designed to evaluate LLMs on fundamental static analysis tasks. CORE includes 12,553 task instances spanning data dependency, control dependency, and information flow across programs written in C/C++, Java, and Python. To ensure semantic diversity and reasoning complexity, we propose a semantics-aware diverse sampling strategy that selects targets and task instances based on structural coverage and dependency depth. We evaluate 10 mainstream LLMs and show that, while they perform well at identifying dependencies, models still struggle with tasks that require deeper semantic understanding and multi-step reasoning. We further conduct qualitative analyses to uncover key challenges, such as complex control structures and backward dependency patterns, offering insights into improving LLMs' code reasoning capabilities.

cs / cs.SE / cs.AI