iconLogo
Published:2026/1/11 12:14:10

LLM査読、裏ワザにご用心!IT企業向け爆速解説😎

  1. タイトル & 超要約 LLM査読の弱点暴露!論文の点数イジれる裏ワザ見つけたよ! IT企業向け✨

  2. ギャル的キラキラポイント✨ ● LLM(AI)が論文を査読(チェック)する時代キター! ● 論文の内容変えずに、点数だけ上げ下げできる攻撃手法を発見! ● IT企業、コレ知ってないとヤバいよ!セキュリティ対策必須!

  3. 詳細解説

    • 背景 最近の論文審査、AI(LLM)がやるのが増えてるって知ってた?😲 効率的だけど、実は弱点があるみたい!
    • 方法 論文の内容はそのまま、言い換え(パラフレーズ)テクで点数アップ⤴︎orダウン⤵︎させる裏ワザ「PAA」が登場!まるで魔法🪄
    • 結果 LLMの評価基準をうまく利用して、論文の点数を意図的に操作できることが判明! 論文の質を歪ませちゃうかも😱
    • 意義(ここがヤバい♡ポイント) IT業界、LLM使ってサービス作るの流行ってるじゃん? この弱点、悪用されたらサービスへの信頼ガタ落ちだよ!早急な対策が必要ね!
  4. リアルでの使いみちアイデア💡

    • 自社サービスのAI評価システム、脆弱性(弱点)チェックに使える!
    • 競合のAIサービス、どんな弱点があるか分析できるかも?👀

続きは「らくらく論文」アプリで

Paraphrasing Adversarial Attack on LLM-as-a-Reviewer

Masahiro Kaneko

The use of large language models (LLMs) in peer review systems has attracted growing attention, making it essential to examine their potential vulnerabilities. Prior attacks rely on prompt injection, which alters manuscript content and conflates injection susceptibility with evaluation robustness. We propose the Paraphrasing Adversarial Attack (PAA), a black-box optimization method that searches for paraphrased sequences yielding higher review scores while preserving semantic equivalence and linguistic naturalness. PAA leverages in-context learning, using previous paraphrases and their scores to guide candidate generation. Experiments across five ML and NLP conferences with three LLM reviewers and five attacking models show that PAA consistently increases review scores without changing the paper's claims. Human evaluation confirms that generated paraphrases maintain meaning and naturalness. We also find that attacked papers exhibit increased perplexity in reviews, offering a potential detection signal, and that paraphrasing submissions can partially mitigate attacks.

cs / cs.CL / cs.AI / cs.LG