iconLogo
Published:2026/1/5 15:23:50

サンスクリット語はコスパ最強⁉ LLM のトークン効率をギャルが徹底解剖💖

  1. 超要約: LLM (大規模言語モデル)の効率を上げるために、サンスクリット語のトークン効率を調べた研究だよ!コスパ最強の言語かも💖

  2. ギャル的キラキラポイント✨

    • ● サンスクリット語は、英語やヒンディー語より少ないトークンで情報伝えられるかも!😳
    • ● GPT とか Gemini みたいな最新の AI ちゃん達で、トークン効率を比較したのがスゴくない?✨
    • ● LLM のコスト削減、推論速度アップ、言語バイアス(かたより)軽減にも繋がるかもって、最高じゃん?🫶
  3. 詳細解説

    • 背景: LLM は、言葉を「トークン」っていう単位に分けて処理するんだけど、このトークン数が多すぎると、お金も時間もかかる💸 言語によってトークンの使い方が違うから、コスパ(コストパフォーマンス)良い言語を探る研究なんだって!
    • 方法: サンスクリット語、英語、ヒンディー語で同じ内容の文章を比べて、トークン数を比較したよ!GPT とか Gemini のトークナイザー(言葉をトークンに変換するやつ)も使ってるみたい😳
    • 結果: まだ研究段階だけど、サンスクリット語は少ないトークンで済む可能性が😍 他の言語よりも情報詰め込めるって、めっちゃ良くない?
    • 意義(ここがヤバい♡ポイント): LLM を使うコストが安くなったり、AI の動きが速くなったり、色んな言語の人たちが平等に AI を使えるようになったり…良いことばっかりじゃん!💕
  4. リアルでの使いみちアイデア💡

    • サンスクリット語の知識を活かして、コスパ最強の LLM を開発して、語学学習アプリとか作ったら面白そう!📱
    • 多言語翻訳サービスとか作って、世界中の人とスムーズにコミュニケーション取れるようにするのもアリだね🌎

続きは「らくらく論文」アプリで

Is Sanskrit the most token-efficient language? A quantitative study using GPT, Gemini, and SentencePiece

Anshul Kumar

Tokens are the basic units of Large Language Models (LLMs). LLMs rely on tokenizers to segment text into these tokens, and tokenization is the primary determinant of computational and inference cost. Sanskrit, one of the oldest languages, is hypothesized to express more meaning per token due to its morphology and grammar rules; however, no prior work has quantified this. We use a dataset of 701 parallel verses of the Bhagavad Gita, which comprises three languages-Sanskrit, English, and Hindi along with transliteration of Sanskrit into English. We test tokenizers including SentencePiece (SPM), older GPT models, and the latest generation tokenizers from Gemini and GPT. We use metrics of token count, characters per token (token efficiency), and tokens per character (token cost). Results show a ~2x difference in token counts between Sanskrit and English/Hindi under the unbiased SPM baseline. English/Hindi translations of Sanskrit commentary resulted in an approximately 20x increase in token count. GPT o200k base (latest, used by GPT-4o) and Gemini (latest) reduce bias by a significant degree compared to GPT cl100k base (used until GPT-4), but still fail to fully capture Sanskrit's compactness. This matters because there might be a penalty bias for non-English users, which inflates the token count. This research provides a foundation for improving future tokenizer design and shows the potential of Sanskrit for highly compact encoding, saving on cost while speeding up training and inference. The code and dataset are available at https://github.com/anshulkr713/sanskrit-token-efficiency

cs / cs.CL / cs.AI / cs.LG