iconLogo
Published:2025/11/10 3:18:54

LLMのコーディング力、ガチで評価するぜ!SWE-Compass爆誕☆

  1. 超要約: LLM(AI)のコード書く能力を、もっとリアルな環境で評価する新しい方法ができたよ!✨

  2. ギャル的キラキラポイント

    • ● 色んな言語&タスクに対応!Pythonだけじゃなくて、色んなコードが試せるの最強💖
    • ● 実世界のGitHub(開発プラットフォーム)のデータ使ってるから、実践的な評価ができるってワケ🎵
    • ● 自律的にコード書けるか?まで評価!AIちゃんのポテンシャルを最大限に引き出すって感じ😎
  3. 詳細解説

    • 背景: 最近のAIちゃん、コード書くのめっちゃ上手くなってるじゃん? でも、今の評価方法じゃ、ほんとの実力が見えてこない😭 だから、もっと色んな言語で、色んなことを試せるようにしたかったんだよね!
    • 方法: SWE-Compass(スウィー・コンパス)っていう新しい評価方法作ったよ!GitHubの実際のコード変更データとか使って、8種類のタスク、8種類の状況、10種類の言語でLLMのコーディング能力を試すんだ!
    • 結果: 今までの評価方法より、ずっとLLMの得意・不得意が見えてくるようになった! 例えば、Javaは得意だけど、JavaScriptは苦手、みたいな?🤔
    • 意義(ここがヤバい♡ポイント): これで、AIちゃんのコード能力をちゃんと評価できるから、もっと良いAIが作れるようになるはず! 開発コスト削減にもつながるし、新しいサービスも生まれちゃうかも💕
  4. リアルでの使いみちアイデア

    • 💡 IT企業が、自社のサービスに合うLLMを選ぶときに、SWE-Compassの結果を参考にできる!
    • 💡 プログラミング教育にSWE-Compassを活用して、AIに得意なこと、苦手なことを教える教材作れるかも!

続きは「らくらく論文」アプリで

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

Jingxuan Xu / Ken Deng / Weihao Li / Songwei Yu / Huaixi Tang / Haoyang Huang / Zhiyi Lai / Zizheng Zhan / Yanan Wu / Chenchen Zhang / Kepeng Lei / Yifan Yao / Xinping Lei / Wenqiang Zhu / Zongxian Feng / Han Li / Junqi Xiong / Dailin Li / Zuchen Gao / Kun Wu / Wen Xiang / Ziqi Zhan / Yuanxing Zhang / Wuxuan Gong / Ziyuan Gao / Guanxiang Wang / Yirong Xue / Xiaojiang Zhang / Jinghui Wang / Huiming Wang / Wenhao Zhuang / Zhaoxiang Zhang / Yuqun Zhang / Haotian Zhang / Bin Chen / Jiaheng Liu

Evaluating large language models (LLMs) for software engineering has been limited by narrow task coverage, language bias, and insufficient alignment with real-world developer workflows. Existing benchmarks often focus on algorithmic problems or Python-centric bug fixing, leaving critical dimensions of software engineering underexplored. To address these gaps, we introduce SWE-Compass1, a comprehensive benchmark that unifies heterogeneous code-related evaluations into a structured and production-aligned framework. SWE-Compass spans 8 task types, 8 programming scenarios, and 10 programming languages, with 2000 high-quality instances curated from authentic GitHub pull requests and refined through systematic filtering and validation. We benchmark ten state-of-the-art LLMs under two agentic frameworks, SWE-Agent and Claude Code, revealing a clear hierarchy of difficulty across task types, languages, and scenarios. Moreover, by aligning evaluation with real-world developer practices, SWE-Compass provides a rigorous and reproducible foundation for diagnosing and advancing agentic coding capabilities in large language models.

cs / cs.SE / cs.AI