Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation
この論文は、複数のツールの情報を組み合わせることで意図せず機密情報が漏洩する「ツール編成プライバシーリスク(TOP-R)」という新たな脅威を初めて体系的に研究し、評価ベンチマークと緩和策を提案するものである。
1077 件の論文
この論文は、複数のツールの情報を組み合わせることで意図せず機密情報が漏洩する「ツール編成プライバシーリスク(TOP-R)」という新たな脅威を初めて体系的に研究し、評価ベンチマークと緩和策を提案するものである。
この論文は、大規模言語モデルのトレーニングデータへの所属を推測する攻撃において、平均損失などのグローバルな指標に依存する従来の手法の限界を克服し、局所的な文脈における記憶信号を捉える「WBC(ウィンドウベース比較)」という新しい手法を提案し、その有効性を複数のデータセットで実証したことを述べています。
この論文は、7 つの可読性指標を統合したクラスタリング手法と独自のデータセットを用いて大規模言語モデルを微調整する枠組みを提案し、これにより回答の正確性を保ちつつ、小学低学年から成人教育までの 6 つの学年レベルに合わせた適切な教育コンテンツを生成し、プロンプトベースの手法と比較して 35.64 ポイントも学年適合性を向上させたことを示しています。
この論文は、USAS 意味分析フレームワークを用いた多言語(5 言語)における意味タグ付けの包括的評価を実施し、人手付きデータ不足を克服するため銀ラベルデータを活用してルールベースシステムとニューラルネットワークをハイブリッド化した PyMUSAS フレームワークを提案し、そのコードやデータセットをオープンソースとして公開したものである。
この論文は、強化学習による事後学習で生じる探索の崩壊という課題に対し、追加学習なしに中間層の事後分布を統合してエントロピーを最大化する「Latent Exploration Decoding」という新しいデコーディング戦略を提案し、複数の推論ベンチマークで精度を向上させることを示しています。
本論文は、関連性と多様性を同時に最適化し、高圧縮率下でも冗長性を排除して重要な情報を保持する「Marginal Information Gain(MIG)」指標を導入した粗粒度から細粒度への適応的コンテキスト圧縮フレームワーク「COMI」を提案し、長文脈タスクにおいて既存手法を大幅に上回る性能を示すことを実証しています。
この論文は、Google の Gemini モデルを用いた対話的協力や神経記号ループなどの手法を通じて、理論計算機科学や物理学などの分野で未解決問題の解決や新たな証明の生成を成功させた事例を紹介し、AI が単なる自動化ツールを超えて科学的発見における真のパートナーとなり得る可能性を示しています。
この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。
本論文は、強化学習を用いて大規模言語モデルの適応に向けた最適なデータレシピを自動生成する「DataChef」を提案し、人間が手動で設計したレシピと同等、あるいはそれ以上の性能を達成したことを示しています。
本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。
本論文は、OpenReview の査読質問から構築した報酬モデル「IntelliReward」と強化学習手法を用いて、証拠に基づき深い洞察を持つ高品質な研究質問を生成するモデル「IntelliAsk」を開発し、その汎用的な推論・執筆能力の向上を実証したものである。
本論文は、ニュース報道における多様な表現やフレーミングを捉えるため、NewsWCL50 データセットのクロスドキュメント中核参照解決(CDCR)アノテーションを、同一性および近接同一性の両方を含む談話要素(DEs)の連鎖として再定義し、統一されたコードブックを用いて再アノテーションと評価を行ったものである。
本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。
この論文は、大規模データ環境におけるテキストから SQL への変換(Text-to-Big SQL)を評価する際、従来のベンチマークでは見落とされていたコストやレイテンシなどのスケーラビリティ課題を克服するため、実行効率やデータ規模の影響を正確に反映する新規評価指標を提案し、最先端の LLM エージェントを対象とした包括的な評価を通じてその有効性を示しています。
この論文は、マルチモーダル LLM のモダリティ崩壊を情報理論的な「ミスマッチ復号」として定式化し、デコーダのスコアリング規則と学習目的がアクセス可能な情報量を決定し、エンコーダの調整や投影層よりも決定的なボトルネックであることを示しています。
この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。
この論文は、RAG と大規模言語モデルを活用し、ファクトチェックの根拠提示やユーザー対話機能を備えたブラウザ拡張機能「Aletheia」を開発・評価し、その検出精度と実用性を実証したものである。
本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。
この論文は、文法制約付きデコーディングにおいて、文法構造が到達可能性と計算コストに与える影響を理論的に解析し、構造的曖昧性コストの定量化、最適化の理論的限界、およびトランスフォーマーアーキテクチャにおける実用的な遅延バウンドを導出する。
本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。