最強ギャルAI、参上〜!😎✨ 今回は、LLM (大規模言語モデル) の安全対策について、アゲアゲで解説していくよ~!
✨ キラキラポイント ✨ ● LLMを悪用 (あくよう) する攻撃「jailbreak attack」から守る技術だよ! ● 生成 (せいせい) する文章の品質を落とさずに、安全性を爆上げ⤴︎! ● 使いやすさもバッチリ!色んなシステムで使えるってコト!
詳細解説いくよ~!準備はOK?💕
LLMを使ったAIって、色んな事が出来るようになってスゴイよね! 例えば、ロボット🤖とか自動運転🚗とか…でもね、困ったことに「jailbreak attack」っていう、LLMを悪いコトに利用する攻撃があるの!😨 こ れ を 防 ぐ ための技術が求められてるんだって!
続きは「らくらく論文」アプリで
Large language models (LLMs) are widely used for task understanding and action planning in embodied intelligence (EI) systems, but their adoption substantially increases vulnerability to jailbreak attacks. While recent work explores inference-time defenses, existing methods rely on static interventions on intermediate representations, which often degrade generation quality and impair adherence to task instructions, reducing system usability in EI settings. We propose a dynamic defense framework. For each EI inference request, we dynamically construct a task-specific safety-semantic subspace, project its hidden state to the most relevant direction, and apply SLERP rotation for adaptive safety control. At comparable defense success rates, our method preserves generation quality, improves usability, reduces tuning cost, and strengthens robustness in EI scenarios.