
Sign up to save your podcasts
Or


大規模言語モデル(LLM)エージェントは、その強力な能力の反面、外部データソースへの悪意ある指示挿入による間接的なプロンプトインジェクション攻撃に脆弱です。既存手法ではブラックボックスのエージェントに対する汎用的な攻撃評価は困難でした。提案するAGENTXPLOITは、これを自動化する初の汎用的なブラックボックスファジングフレームワークです。高品質な初期シード、適応的なシードスコアリング、MCTSに基づくシード選択を用い、攻撃プロンプトを反復的に洗練します。AGENTXPLOITはベンチマークで71%や70%の高い成功率を達成し、ベースラインを大幅に凌駕しました。未見のタスクやLLMへの転移性、既存防御に対する有効性も示され、現実世界でエージェントを悪意のあるサイトへ誘導する例も確認されています。この研究は、エージェント防御の限界を浮き彫りにし、より堅牢なセキュリティ対策の必要性を示しています。
https://arxiv.org/abs/2505.05849
By らみ大規模言語モデル(LLM)エージェントは、その強力な能力の反面、外部データソースへの悪意ある指示挿入による間接的なプロンプトインジェクション攻撃に脆弱です。既存手法ではブラックボックスのエージェントに対する汎用的な攻撃評価は困難でした。提案するAGENTXPLOITは、これを自動化する初の汎用的なブラックボックスファジングフレームワークです。高品質な初期シード、適応的なシードスコアリング、MCTSに基づくシード選択を用い、攻撃プロンプトを反復的に洗練します。AGENTXPLOITはベンチマークで71%や70%の高い成功率を達成し、ベースラインを大幅に凌駕しました。未見のタスクやLLMへの転移性、既存防御に対する有効性も示され、現実世界でエージェントを悪意のあるサイトへ誘導する例も確認されています。この研究は、エージェント防御の限界を浮き彫りにし、より堅牢なセキュリティ対策の必要性を示しています。
https://arxiv.org/abs/2505.05849