iconLogo
Published:2026/1/11 9:45:34

SAEMARKでLLMに足跡👣!著作権も守るぞ♡

  1. 超要約: LLM生成文に目印✨APIでも多言語でもOK!

  2. ギャル的キラキラポイント✨

    • ● APIで使えるから、色んなLLMにすぐ対応できるのが最強!
    • ● 多言語(色んな言葉)に対応してるから、世界中で使えるってこと🌏
    • ● テキストの質を落とさずに、ちゃんと足跡つけれるのがスゴくない?
  3. 詳細解説

    • 背景: 最近のLLMはすごいけど、誰が作ったか分からなくなっちゃう問題があったの。著作権(作った人の権利)を守るために、生成したテキストに「足跡」をつける技術が必要になったんだよね!
    • 方法: 特徴量(文章の特徴)を使って、LLMが作ったテキストに目印を埋め込むんだって! API(アプリとかで使うやつ)ベースだから、色んなLLMで使えるし、多言語にも対応してるんだって!
    • 結果: テキストの質をあんまり下げずに、しっかり足跡をつけられたみたい! 著作権表示や誤情報対策に役立つってことみたい😍
    • 意義: APIで使えるから、色んなサービスにすぐに導入できるのが良いよね!多言語対応で、世界中の人が安心してLLMを使えるようになるかも!
  4. リアルでの使いみちアイデア💡

    • 自分のブログ記事に、LLMで作った部分にだけ、足跡をつけられるようにする👍
    • 翻訳サービスで、生成された文章が、ちゃんと元の文章の作者のものだと分かるようにする💖

続きは「らくらく論文」アプリで

SAEMark: Steering Personalized Multilingual LLM Watermarks with Sparse Autoencoders

Zhuohao Yu / Xingru Jiang / Weizheng Gu / Yidong Wang / Qingsong Wen / Shikun Zhang / Wei Ye

Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. Our approach operates on deterministic features extracted from generated text, selecting outputs whose feature statistics align with key-derived targets. This framework naturally generalizes across languages and domains while preserving text quality through sampling LLM outputs instead of modifying. We provide theoretical guarantees relating watermark success probability and compute budget that hold for any suitable feature extractor. Empirically, we demonstrate the framework's effectiveness using Sparse Autoencoders (SAEs), achieving superior detection accuracy and text quality. Experiments across 4 datasets show SAEMark's consistent performance, with 99.7% F1 on English and strong multi-bit detection accuracy. SAEMark establishes a new paradigm for scalable watermarking that works out-of-the-box with closed-source LLMs while enabling content attribution.

cs / cs.CL / cs.AI / cs.LG