多言語の文字出現頻度データ、爆誕！🎉（FineFreq）

Published：2025/12/25 14:35:16

多言語の文字出現頻度データ、爆誕！🎉（FineFreq）

超要約: 世界中の言語の文字が、どれくらい使われてるか分かっちゃうデータだよ！💻✨

✨ ギャル的キラキラポイント ✨

● 1900以上の言語に対応💖 どんな国の言葉でも調べられちゃう！ ● 2013年から2025年まで、年ごとにデータがあるから、流行り廃りもわかる👀 ● AIチャットボットとか、色んなアプリがもっと賢くなれるかも？🤔

詳細解説

続きは「らくらく論文」アプリで

FineFreq: A Multilingual Character Frequency Dataset from Web-Scale Text

Binbin Xu

We present FineFreq, a large-scale multilingual character frequency dataset derived from the FineWeb and FineWeb2 corpora, covering over 1900 languages and spanning 2013-2025. The dataset contains frequency counts for 96 trillion characters processed from 57 TB of compressed text. For each language, FineFreq provides per-character statistics with aggregate and year-level frequencies, allowing fine-grained temporal analysis. The dataset preserves naturally occurring multilingual features such as cross-script borrowings, emoji, and acronyms without applying artificial filtering. Each character entry includes Unicode metadata (category, script, block), enabling domain-specific or other downstream filtering and analysis. The full dataset is released in both CSV and Parquet formats, with associated metadata, available on GitHub and HuggingFace. https://github.com/Bin-2/FineFreq

cs / cs.CL

Arxivで見る