iconLogo
Published:2025/10/23 8:30:36

LLMの限界、プレトレでどうなる?🤔

超要約: Transformer (変換器) って賢いけど、プレトレで長さ制限とか変わるか見てみたよ!

🌟 ギャル的キラキラポイント✨ ● Transformer (変換器) の弱点(苦手なこと)が、プレトレでどう変わるか検証してるの! ● コピーと検索のタスクで、Transformer (変換器) がどこまで頑張れるか試してるんだって! ● LLM アプリ開発で、Transformer (変換器) の限界を知って、もっと良いもの作ろうってこと💖

詳細解説 ● 背景:Transformer (変換器) って、色んなことに使えるすごいAIモデル💻✨。でも、文章が長くなると苦手になることがあるらしい! LLM (大規模言語モデル) はプレトレ(事前学習)で賢くなるけど、その弱点は克服できるのかな?ってのが今回のテーマ💡 ● 方法:Transformer (変換器) がコピーとか検索をどれだけできるか、色んな実験で試したみたい。プレトレ前と後で、能力にどんな違いが出るか見てるんだって👀 ● 結果:プレトレによって、Transformer (変換器) の得意なことと苦手なことが変わることが分かったみたい! コピーは得意になったけど、検索はちょっと苦手になることもあったり…🤔 ● 意義(ここがヤバい♡ポイント):LLM アプリを作る時、Transformer (変換器) の得意・不得意を知ってると、もっと良いものが作れるってこと💖 長い文章を扱うアプリを作る時は、特に注意が必要みたいね!

リアルでの使いみちアイデア💡 ● 長い文章もサクッと要約してくれるアプリ! Transformer (変換器) の限界を理解して、もっと良い要約ができるようにするんだって! ● 情報検索が爆速になる検索エンジン! 論文とか、色んな情報の中から、必要なものをすぐに見つけられるようになるかも💖

続きは「らくらく論文」アプリで

Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities

Mayank Jobanputra / Yana Veitsman / Yash Sarrof / Aleksandra Bakalova / Vera Demberg / Ellie Pavlick / Michael Hahn

Transformers have theoretical limitations in modeling certain sequence-to-sequence tasks, yet it remains largely unclear if these limitations play a role in large-scale pretrained LLMs, or whether LLMs might effectively overcome these constraints in practice due to the scale of both the models themselves and their pretraining data. We explore how these architectural constraints manifest after pretraining, by studying a family of $\textit{retrieval}$ and $\textit{copying}$ tasks inspired by Liu et al. [2024a]. We use a recently proposed framework for studying length generalization [Huang et al., 2025] to provide guarantees for each of our settings. Empirically, we observe an $\textit{induction-versus-anti-induction}$ asymmetry, where pretrained models are better at retrieving tokens to the right (induction) rather than the left (anti-induction) of a query token. This asymmetry disappears upon targeted fine-tuning if length-generalization is guaranteed by theory. Mechanistic analysis reveals that this asymmetry is connected to the differences in the strength of induction versus anti-induction circuits within pretrained transformers. We validate our findings through practical experiments on real-world tasks demonstrating reliability risks. Our results highlight that pretraining selectively enhances certain transformer capabilities, but does not overcome fundamental length-generalization limits.

cs / cs.LG / cs.CL