
AGENTXPLOITが示すエージェントの脆弱性
カートのアイテムが多すぎます
ご購入は五十タイトルがカートに入っている場合のみです。
カートに追加できませんでした。
しばらく経ってから再度お試しください。
ウィッシュリストに追加できませんでした。
しばらく経ってから再度お試しください。
ほしい物リストの削除に失敗しました。
しばらく経ってから再度お試しください。
ポッドキャストのフォローに失敗しました
ポッドキャストのフォロー解除に失敗しました
-
ナレーター:
-
著者:
このコンテンツについて
大規模言語モデル(LLM)エージェントは、その強力な能力の反面、外部データソースへの悪意ある指示挿入による間接的なプロンプトインジェクション攻撃に脆弱です。既存手法ではブラックボックスのエージェントに対する汎用的な攻撃評価は困難でした。提案するAGENTXPLOITは、これを自動化する初の汎用的なブラックボックスファジングフレームワークです。高品質な初期シード、適応的なシードスコアリング、MCTSに基づくシード選択を用い、攻撃プロンプトを反復的に洗練します。AGENTXPLOITはベンチマークで71%や70%の高い成功率を達成し、ベースラインを大幅に凌駕しました。未見のタスクやLLMへの転移性、既存防御に対する有効性も示され、現実世界でエージェントを悪意のあるサイトへ誘導する例も確認されています。この研究は、エージェント防御の限界を浮き彫りにし、より堅牢なセキュリティ対策の必要性を示しています。
https://arxiv.org/abs/2505.05849