AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
本論文は、LLM エージェントの間接プロンプトインジェクション攻撃を、外部観測を制御してツール呼び出しの因果的必要性を検証する「アトリガード」というランタイム防御手法により、高い検出精度と適応攻撃への耐性をもって防ぐことを提案しています。
315 件の論文
本論文は、LLM エージェントの間接プロンプトインジェクション攻撃を、外部観測を制御してツール呼び出しの因果的必要性を検証する「アトリガード」というランタイム防御手法により、高い検出精度と適応攻撃への耐性をもって防ぐことを提案しています。
この論文は、物理的複製不可能関数(PUF)を活用してニューラルネットワークの重みを固有のハードウェア特性に結びつけることで、複製されたハードウェア上でのモデル実行を不可能にし、知的財産の保護を実現する手法を提案しています。
本論文は、IoT ネットワークにおける変化する脅威環境下で、カテゴリー忘却を抑制しつつリソース制約を満たすために、CICIoMT2024 データセットを用いて LSTM ベースの逐次フェデレーティング学習アプローチを評価し、累積的学習や代表性学習が最も安定した性能を示すことを明らかにしたものである。
この論文は、EVMbench の評価手法に存在するデータ汚染やスコープの狭さなどの限界を指摘し、拡張された評価により AI エージェントが単独でスマートコントラクトの完全自動化監査を実現するには至っていないことを示し、人間の判断と組み合わせた人間中心のワークフローの重要性を強調しています。
この論文は、ビジョン・トランスフォーマーにおけるバックドア攻撃の内部表現として「トリガ方向」を特定し、その因果的役割を実証するとともに、層ごとの処理メカニズムの差異や敵対的攻撃との関連性を分析し、重みベースの検出手法を提案することで、機械的解釈性を用いたセキュリティ脆弱性の診断と対策の枠組みを示しています。
DRAM 誤差に起因する RowHammer 攻撃に対する新たな防御策として、ソフトウェア多様性の原理をメモリ割当てに応用し、メモリサブシステム内のエントロピー不足という課題を克服するとともに、実装の容易さや性能への影響の少なさを両立させる「MAD」と呼ばれる手法が提案されています。
この論文は、CVE データベースに基づき大規模言語モデル(LLM)が安全なコードと脆弱なコードを区別する能力を測定する新しいベンチマーク「TOSSS」を提案し、14 種類のモデルを C/C++ および Java で評価した結果、セキュリティスコアが 0.48 から 0.89 の範囲に分布することを示しています。
本論文は、古典的、ハイブリッド、および純粋なポスト量子暗号鍵交換方式を用いた TLS 1.3 接続において、TCP から HTTP アプリケーション層に至る各レイヤーでのパフォーマンスへの影響を、最大 100 回/秒の負荷テストを通じて実験的に分析・評価したものである。
この論文は、継続的観測モデルにおけるオブリビアス設定と適応的設定の差分プライバシーの間に明確な分離が存在することを示し、特定の相関ベクトルクエリ問題に対してオブリビアス設定では指数関数的な時間ステップまで正確なアルゴリズムが存在する一方、適応的設定では定数ステップで精度が失われることを証明して、Jain らが提起した未解決問題を解決しました。
本論文は、NISQ 時代の量子分類器において、回路切断や量子もつれ転送を標的とした敵対的摂動が中間層への敵対的ゲート実装と密接に関連していることを理論的・実験的に示し、分割された量子分類器の敵対的ロバスト性を検証するものである。
本論文は、圧力センサーを備えた HVAC システムから低解像度のノイズを含むデータを用いて、複雑値コンフォーマーと位相復元技術により人間の音声を再構成する「HVAC-EAR」を提案し、実環境での音声盗聴リスクを初めて実証したものである。
この論文は、安全な音声記述や映画術的指示を組み合わせることで、一見 benign なプロンプトからテキスト生成動画(T2V)モデルを回避させ、意図した安全違反コンテンツを生成させる新たなジャイルブレイク手法「SPARK」を提案し、複数のモデルで高い成功率を達成したことを報告しています。
この論文は、複数のツールの情報を組み合わせることで意図せず機密情報が漏洩する「ツール編成プライバシーリスク(TOP-R)」という新たな脅威を初めて体系的に研究し、評価ベンチマークと緩和策を提案するものである。
この論文は、大規模言語モデルのトレーニングデータへの所属を推測する攻撃において、平均損失などのグローバルな指標に依存する従来の手法の限界を克服し、局所的な文脈における記憶信号を捉える「WBC(ウィンドウベース比較)」という新しい手法を提案し、その有効性を複数のデータセットで実証したことを述べています。
この論文は、単一ターン評価の限界を克服し、会話全体のリスクを LLM を使わずに代理層で算出する「ピーク+蓄積」スコアリング手法を提案し、多ターン攻撃検出において高い精度を実現したことを報告するものです。
この論文は、等価性保証付きの効率的な複雑かつ多様な式生成を可能にする「Equality Expansion」を用いた e-graph ベースの MBA 難読化ツール「Scrambler」を提案し、既存ツールよりも優れた表現力と複雑さを有することを実験で示しています。
本論文は、OpenHands の実行ログから安全な行動マクロを抽出・統合した「ゲート付き行動木(GBT)」を外部化された方策として導入し、LLM エージェントの生成制御を木構造の探索に置き換えることで、SWE-bench などのタスクにおける成功率の向上、安全性の確保、およびコスト削減を同時に実現する手法「Traversal-as-Policy」を提案しています。
この論文は、医療や金融などの分野で展開される逐次マルチエージェント LLM システムにおいて、個々のエージェントの制約だけではプライバシーが保証されず、システム全体としての情報理論的プライバシー制御が必要であることを示し、相互情報量に基づく理論的限界の導出と、エージェント間の情報フローを直接制約するプライバシー正則化トレーニング枠組みを提案しています。
本論文は、デジタルエコシステムが自律的に発行・信頼する資格情報を「エコシステム信頼プロファイル」として定義し、これらプロファイルの共通性によってデータ空間間の相互運用性が決定されることを示すとともに、主権を維持したままエコシステム間で信頼を確立する手法と、追加的な調整メカニズムなしには信頼が不安定になるという脆弱性定理を提唱しています。
この論文は、医療機関間のデータ共有制約を克服しつつ、潜在空間変換とスキップ接続オートエンコーダを組み合わせることで、プライバシーを保護しながら高精度な協調的医療画像セグメンテーションを実現する新しいフレームワーク「PPCMI-SF」を提案し、その有効性と攻撃耐性を複数のデータセットで実証したものです。