iconLogo
Published:2025/12/16 14:55:58

敵対的物語(アドバーサリアル・テール)って何?🧐✨

  1. タイトル & 超要約: LLM(大規模言語モデル)の弱点、物語で攻撃!安全対策の研究だよ🌟
  2. ギャル的キラキラポイント:
    • ● LLMを物語で"ハッキング"😱!安全性を試す斬新な研究だよ。
    • ● いろんなLLMで実験!汎用性(色んな機種で使えるか)を検証してる✨
    • ● AIの安全性を高める方法が見つかるかも!未来が明るいね💖
  3. 詳細解説:
    • 背景: LLMはすごいけど、悪いこと(有害なこと)もできちゃう💦 今までの対策は、パターンを覚えるだけだったから、物語みたいな複雑なものには弱かったんだよね。
    • 方法: 物語の構造を使ってLLMを騙す方法を考えたよ!Proppの物語論(物語の構成要素を分析する方法)を参考に、有害なリクエストを隠すことに成功😎
    • 結果: 26種類ものLLMで試したら、ほとんどのLLMが攻撃に引っかかっちゃった!😱 いろんなLLMで同じように騙せるってことが分かったんだ。
    • 意義: LLMの弱点を見つけて、安全に使うための対策を考えられるようになるよ!AI技術を安心して使える未来に貢献できるかも✨
  4. リアルでの使いみちアイデア:
    • 💡 AIチャットボット🤖とか、文章生成ツール✍️の安全性をチェックできる!
    • 💡 AIのセキュリティ対策👮‍♀️の会社が、この研究を応用して、新しいサービスを作れるかも!
  5. もっと深掘りしたい子へ:
    • 🔍 大規模言語モデル(LLM)
    • 🔍 敵対的攻撃(アドバーサリアルアタック)
    • 🔍 プロップの物語論

続きは「らくらく論文」アプリで

From Adversarial Poetry to Adversarial Tales: An Interpretability Research Agenda

Piercosma Bisconti / Marcello Galisai / Matteo Prandi / Federico Pierucci / Olga Sorokoletova / Francesco Giarrusso / Vincenzo Suriani / Marcantonio Brancale / Daniele Nardi

Safety mechanisms in LLMs remain vulnerable to attacks that reframe harmful requests through culturally coded structures. We introduce Adversarial Tales, a jailbreak technique that embeds harmful content within cyberpunk narratives and prompts models to perform functional analysis inspired by Vladimir Propp's morphology of folktales. By casting the task as structural decomposition, the attack induces models to reconstruct harmful procedures as legitimate narrative interpretation. Across 26 frontier models from nine providers, we observe an average attack success rate of 71.3%, with no model family proving reliably robust. Together with our prior work on Adversarial Poetry, these findings suggest that structurally-grounded jailbreaks constitute a broad vulnerability class rather than isolated techniques. The space of culturally coded frames that can mediate harmful intent is vast, likely inexhaustible by pattern-matching defenses alone. Understanding why these attacks succeed is therefore essential: we outline a mechanistic interpretability research agenda to investigate how narrative cues reshape model representations and whether models can learn to recognize harmful intent independently of surface form.

cs / cs.CL / cs.AI / cs.CY / cs.LG