Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks
本論文は、LLM 安全性ベンチマーク 31 件を対象とした初の多面的評価を通じて、論文の学術的影響力とコード品質の間に乖離があること、また多くのリポジトリが実用性や倫理面において改善の余地が大きいことを明らかにし、著名な研究者に基準向上の主導を求めています。
361 件の論文
本論文は、LLM 安全性ベンチマーク 31 件を対象とした初の多面的評価を通じて、論文の学術的影響力とコード品質の間に乖離があること、また多くのリポジトリが実用性や倫理面において改善の余地が大きいことを明らかにし、著名な研究者に基準向上の主導を求めています。
本論文は、従来の入力ガードレールでは回避可能なマルチエージェントシステムにおける間接的プロンプトインジェクションなどのリスクに対処するため、実行時の分析に基づきエージェント間の意味的フローを再構築し、異常を検知する新しいフレームワーク「SysName」を提案し、その有効性を示しています。
本論文は、Open5GS や UERANSIM を用いたテストベッド実験を通じて、5G スタンダローンネットワークにおける論理的脆弱性が UAV の通信に与える影響を評価し、攻撃経路に応じた制御コマンドの改ざんやセッション切断などの脅威を明らかにするとともに、ユーザープレーンの分離とコマンドプロトコルの完全性保護の必要性を強調しています。
本論文は、拡散モデルに基づく画像編集が、従来のノイズや圧縮に耐性を持つように設計された不可視透かしを、拡散過程におけるノイズ注入と学習された復元ダイナミクスによって実質的に無効化してしまうという理論的・実証的脆弱性を明らかにし、生成変換時代における透かしの設計指針を提言するものである。
この論文は、ホモモルフィック暗号とスパース行列・ベクトル積(SpMV)を効率的に統合する初のフレームワークを提案し、特に「圧縮ソート列(CSSC)」という新規データ形式を導入することで、暗号化されたスパース行列計算における計算効率とデータプライバシーの両立を実現したことを示しています。
本論文は、電磁シールドが放射エミッションを抑制しても、能動的な RF 探査によるインピーダンス変調バック散乱が実行依存挙動の漏洩を可能にするため、ハードウェアセキュリティ評価において能動的なインピーダンス探査の考慮が必要であることを示しています。
本論文は、データ蒸留によって生成された合成データセットを用いた転移学習において、極めて少量の汚染サンプルのみでモデルを乗っ取る新たな攻撃手法「Osmosis Distillation」を提案し、その脅威を明らかにするものである。
この論文は、エージェントシステムにおけるプライバシーリスクが最終出力だけでなく中間情報フロー全体に存在することを指摘し、文脈的整合性に基づいた「Privacy Flow Graph」フレームワークと「AgentSCOPE」ベンチマークを提案することで、従来の評価手法では見逃されていたパイプライン段階での広範なプライバシー侵害の実態を明らかにしています。
本論文は、スマートコントラクトの脆弱性検出、修正、悪用における AI エージェントの能力を評価するベンチマーク「EVMbench」を提案し、最先端の AI エージェントがローカルな Ethereum 実行環境において脆弱性を発見し、エンドツーエンドで悪用できることを実証しています。
この論文は、完全準同型暗号方式である修正リベスト方式(FHMRS)のセキュリティ上の問題点と、その対策として提案された改良版(mFHMRS)について詳述しています。
この論文は、金融機関の機密性と監査可能性の要件を満たすため、ゼロ知識証明と新しいコンパクトな範囲証明を活用した、ポスト量子耐性を持つ分散型台帳トランザクション方式を提案し、その安全性を分析したものである。
この論文は、共有アクセラレータ環境における LLM のプロンプトプライバシーを保護するため、バッチごとの可逆混合を用いて隠れ状態を隠蔽し、暗号化技術の遅延や統計的攻撃の脆弱性を克服する軽量プロトコル「GELO」を提案するものである。
本論文は、従来のサイバー脅威インテリジェンスの限界を踏まえ、AI 特有の脆弱性やサプライチェーンを網羅した新たな知識基盤の構築、具体的な侵害指標の提示、および類似性評価手法の検討を通じて、AI システムに特化した実践的な脅威インテリジェンス枠組みの確立に向けた課題と将来の研究方向を明らかにしています。
この論文は、既存の手法が利便性、メッセージ複雑性、耐攻撃性のバランスを達成できないという課題に対し、相互情報量のより厳密な上限に基づく最適化されたランダム化器と、適応的平滑化を備えた期待値最大化アルゴリズム(EMAS)を組み合わせた単一メッセージの新しいプロトコル「ASP」を提案し、純粋なシャッフル差分プライバシー枠組み下での分布推定の精度と堅牢性を大幅に向上させることを示しています。
この論文は、多次元ランダム化応答における次元の呪いと計算コストの課題を克服し、3 つの単純な要素のみを用いて低コストで真の分布を推定可能にする「Lambda-randomization」という新しいプロトコルを提案しています。
この論文は、ホモモルフィック暗号を用いてプライバシーを保護したままニューラルネットワーク推論を可能にする新たな行列符号化手法「Volley Revolver」を提案し、MNIST 手書き文字認識タスクにおけるその実装と性能(32 枚の暗号化画像を約 287 秒で処理)を示したものである。
本論文は、将来的な Armv9-A の CCA ハードウェアが普及する前に、既存の Arm プラットフォーム(S-EL2 あり・なし)の TrustZone 機能を活用して仮想化された CCA 環境「virtCCA」を構築し、CVM の実行オーバーヘッドが許容範囲内であることを実証したものである。
この論文は、局所差分プライバシー制約下での仮説選択問題において、相互作用をわずかに用いることで非相互作用アルゴリズムのサンプル複雑性の下限を破り、 分布クラスに対して最適なサンプル数 を達成するアルゴリズムを提案し、その証明に「クリティカルクエリ」という新たな概念を導入したことを示しています。
本論文は、既存の画像を必要とせず秘密情報を埋め込む拡散モデル基盤の生成式ステガノグラフィにおいて、画像品質・セキュリティ・抽出信頼性のトレードオフを解決し、任意の長さのビット列を純粋なガウスノイズに可逆的に符号化する「PA-B2G」というモデル非依存の手法を提案し、理論的保証と高い実用性を両立させることを示しています。
本論文は、テキストから画像を生成するシステムが持つ「記憶機能」を悪用し、セグメンテーションと再帰処理を組み合わせて多回対話で安全フィルターを回避する新たなジェイルブレイク攻撃手法「Inception」を提案し、その実世界プラットフォームにおける有効性を示したものである。