iconLogo
Published:2026/1/5 11:55:15

LLMの時間推論を評価!LTLBench爆誕✨(超要約:LLMの時間理解度を測るベンチマーク開発)

LLM(大規模言語モデル)の時間的推論能力を、LTL(線形時相論理)を使って測っちゃうスゴい研究だよ!💖

✨ ギャル的キラキラポイント ✨ ● LTLっていう形式的な論理を使って、LLMの時間感覚をチェックするんだって!斬新すぎ!👀 ● 自動で問題を作ってくれるパイプラインを開発!LLMのテストがめっちゃ効率的になるね♪💡 ● LTLBenchっていうデータセットを作って、色んなLLMを評価!最強のLLMがわかるかも!👑

詳細解説いくよ~! 背景 LLMは時間に関する情報を理解するのが難しいみたい。でも、色んな問題を解くには、時間の概念が必要不可欠じゃん?🤔 そこで、LTLを使ってLLMの時間推論能力を測ることにしたんだって!IT業界でも、時系列データ分析とかで、LLMの時間理解が重要になってくるからね!

方法 LTLBenchっていう、2000個の問題が入ったデータセットを作ったよ!問題は、LTLを使って自動生成!色んなLLMで試してみて、どのくらい時間のこと理解できるかテストしたんだって!問題の難易度とかも変えて、LLMの得意・不得意も調べたみたい!🧐

続きは「らくらく論文」アプリで

LTLBench: Towards Benchmarks for Evaluating Temporal Reasoning in Large Language Models

Weizhi Tang / Kwabena Nuamah / Vaishak Belle

Temporal Reasoning (TR) is a critical ability for LLMs to understand and reason over temporal information and relationships between events. To study the TR ability in LLMs, prior works provide different ways for evaluating various aspects of TR ability. In this work, we propose an alternative perspective for evaluating TR ability by leveraging Linear Temporal Logic (LTL), and develop a pipeline to automatically synthesize challenges for assessing the TR ability of LLMs. Based on this pipeline, we construct a dataset, namely LTLBench, consisting of $2000$ TR challenges, and benchmark 12 LLMs across 5 different methods. Furthermore, we conduct additional experiments to investigate the impact of increasing the number of formula operators and events on both LLM performance and the complexity of TR problems. We also perform qualitative analyses of their reasoning processes and the effects of varying the number of events and formula operators, which reveal 3 main issues in their temporal reasoning processes and the unexpected performance changes observed as problem complexity increases. We expect this work to provide valuable insights into the TR ability of LLMs.

cs / cs.CL / cs.AI