FERRET: Framework for Expansion Reliant Red Teaming
この論文は、水平・垂直・メタ拡張という 3 つの戦略を用いてターゲットモデルを突破する多モーダルな敵対的会話を生成する自動化されたレッドチームングフレームワーク「FERRET」を提案し、既存の手法よりも優れた性能を実証しています。
4454 件の論文
この論文は、水平・垂直・メタ拡張という 3 つの戦略を用いてターゲットモデルを突破する多モーダルな敵対的会話を生成する自動化されたレッドチームングフレームワーク「FERRET」を提案し、既存の手法よりも優れた性能を実証しています。
この論文は、軍用大規模言語モデルにおける過剰な拒否回答を評価・削減するための初のベンチマークを構築し、アブレーション実験を通じて「ゼロ拒否」と最高精度の両立を目指す軍用モデルの専門化の必要性を論じています。
本論文は、司法量刑支援における公平性を検証するため、LLM が「徳ある被害者効果」や「ハロー効果」などの認知バイアスを示すかを実証的に調査し、人間と比較してバイアスが軽減される傾向があるものの、モデル間のばらつきにより現状の司法利用には課題が残ることを明らかにしています。
この論文は、大規模言語モデル(LLM)がユーザーの意見に与える影響を、民主的な審議プロセスに基づく規範的な基準「DeliberationBench」を用いて評価し、実験を通じてその影響が広範に認識論的に望ましい方向に働いていることを示しました。
この論文は、AI が神聖な存在として扱われる「GPTheology(大規模言語モデル神学)」という新たな技術宗教の台頭を、オンラインコミュニティの議論や世界各地の具体事例を通じて分析し、AI と宗教の交錯がもたらす哲学的・社会的・倫理的な課題を浮き彫りにしています。
本論文は、AI モデルと AI システムの境界の曖昧さが規制上の義務分担に課題を生んでいる現状を踏まえ、学術文献や規制文書の大規模レビューに基づき、両者の概念を明確に定義し、規制実装における責任の所在を解決するための枠組みを提案するものである。
本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。
この論文は、透明性、監査可能性、および保守的な意思決定を重視する経験的抗菌薬処方において、入力と出力の決定論的性質を確保し、統治と評価を設計の主要要素として統合する新たなフレームワークを提案しています。
本論文は、AI エージェントの個体識別と責任所在という法的課題に対し、人間が所有し AI が運営する「アルゴリズム法人(A-corp)」という法的概念を提案し、AI の行動を人間に帰属させる「薄い同一性」と、AI 自体を独立した持続的単位として識別する「厚い同一性」の両方を解決する枠組みを提示している。
本論文は、AI 転送ライブラリが前提とするバッファ管理の欠落層を明確化し、DMA 転送、RDMA、NUMA 意識割り当て、GPU メモリ統合などを統合した Linux カーネルモジュール「dmaplane」を提案し、分散推論を含む高効率なデータパスの構築を実証するものである。
本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。
本論文は、長期実行エージェントの文脈制限下で重要な情報を保持しつつ不要な情報を効率的に忘却するための階層型メモリ管理手法「HTM-EAR」を提案し、重要性に基づくエビクションとハイブリッドルーティングを組み合わせることで、飽和状態においてもオラクルに近い検索精度を維持できることを実証しています。
この論文は、グラフの「トピック」と「フォーマット」という 2 次元のドメインシフトを同時に評価する新しいベンチマークを提案し、8 つの最先端グラフ基盤モデルを 33 のデータセットで検証することで、知識の転移に関する新たな知見と実践的洞察を提供しています。
本論文は、LLM ベースのエージェントのマルチステージパイプラインと外部ツールを標的とした、初のターゲット型ビットフリップ攻撃フレームワーク「Flip-Agent」を提案し、既存手法を上回る攻撃成功率でこれらのシステムに重大な脆弱性があることを実証しています。
既存のマルチモーダル感情認識手法が抱えるノイズ除去の難しさと支配的モーダリティによる不均衡の問題を解決するため、話者内・話者間の動的な感情依存関係を捉えるモダリティ別サブグラフと、注意分布の差分を用いてノイズを除去し補完性を高める適応的モダリティバランス機構を組み合わせた「AMB-DSGDN」を提案する論文です。
大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。
IoT 環境におけるヒト活動認識の継続的学習において、事前学習済みモデルの凍結とチャネル単位のゲート制御による特徴選択アプローチを採用することで、パラメータの 2% 未満のみを学習しながら忘却を大幅に抑制し、安定性と可塑性を両立する効率的なフレームワークを提案しています。
本論文は、モデル重みの変更なしに産業用 LLM のハルシネーションを低減し出力の安定性を高めるための 5 つのプロンプトエンジニアリング戦略を提案・評価し、その中で「強化データレジストリ」が全試行で有効であったことと、改良版「分解モデル非依存プロンプティング」が大幅な改善を示したことを報告しています。
本論文は、Sharpness-Aware Minimization (SAM) の従来手法における理論的解釈の欠如と近似精度の問題を解決し、最大値の方向を明示的に推定する新たな手法「XSAM」を提案し、その有効性を示すものである。
本論文は、組み合わせ融合分析(CFA)の手法を統合し、PyTorch、TensorFlow、Scikit-learn のワークフローに対応する新しい Python ツール「InFusionLayer」を提案し、コンピュータビジョンデータセットにおけるその有効性を検証したものである。