DRBench: A Realistic Benchmark for Enterprise Deep Research
本論文は、企業の深層調査タスクを評価するための新しいベンチマーク「DRBench」を提案し、公開 Web と社内ナレッジベースの両方から情報を統合して多段階の複雑な質問に答える AI エージェントの能力を、10 の異なるドメインにわたる 100 のタスクを用いて包括的に評価する手法を提示しています。
994 件の論文
本論文は、企業の深層調査タスクを評価するための新しいベンチマーク「DRBench」を提案し、公開 Web と社内ナレッジベースの両方から情報を統合して多段階の複雑な質問に答える AI エージェントの能力を、10 の異なるドメインにわたる 100 のタスクを用いて包括的に評価する手法を提示しています。
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、言語モデルの推論能力と事実知識を分離して評価するための「SynthWorlds」というフレームワークを提案し、現実世界と構造的に同一だが知識が無意味な合成世界という平行コーパスを用いて、両者の区別が依然として課題であることを実証しています。
LLM による多エージェントシミュレーションで生成された査読者 - 著者間の議論を異種グラフとして表現し、グラフニューラルネットワークによる推論を通じて従来の手法を大幅に上回る精度で論文査読を自動化する「ReViewGraph」という新しい枠組みが提案されています。
この論文は、2021 年から 2024 年の 565 万件の科学論文を分析し、生成 AI の利用が英語圏以外の研究者による学術的英語のスタイルを、特に言語的距離が大きい国や低インパクトのジャーナルにおいて、米国英語へと収束させる傾向を強めていることを示しています。
本論文は、現実のマルチモーダルな対話環境におけるユーザーのスタンス検出を目的として、ユーザー中心の新しいデータセット「U-MStance」を構築し、ユーザーのパーソナリティを考慮して視覚・言語情報を統合的に推論するフレームワーク「PRISM」を提案するものである。
この論文は、虚偽ニュース検出から拡散予測への研究の転換に伴う実装上の課題を、EVONS と FakeNewsNet の 2 つのデータセットを用いた評価先行アプローチで検証し、拡散予測の精度が閾値設定や早期観測ウィンドウなどの運用選択に大きく依存する一方、強力なテキスト埋め込みが得られれば虚偽ニュース検出は比較的安定していることを示し、限られたリソースでも最先端と競合可能な軽量かつ透明なパイプラインの構築方法を提案しています。
この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。
この論文は、LLM による専門レポート生成の評価課題を解決するため、専門家が策定した詳細な評価基準と主張検証アーキテクチャを備えたベンチマーク「DEER」を提案し、既存の深層研究システムが構造的には優れているものの、専門的な要求の充足や論理的完全性において改善の余地があることを明らかにしています。
本論文は、従来の活性化量に基づく手法の限界を克服し、ターゲット言語への予測への機能的貢献度を評価する介入ベースのフレームワーク「CRANE」を提案することで、多言語大規模言語モデルにおける言語固有のニューロンをより精密に特定し、言語選択的かつ非排他的な専門化の存在を実証するものである。
本論文は、EVM 互換チェーンにおける自然言語によるトランザクションコード生成の安全性と実行精度を動的に評価するためのベンチマーク「EVM-QuestBench」を提案し、20 のモデルを評価して単一動作の精度と多段階ワークフローの完了率の間に大きな非対称性があることを明らかにしたものである。
本論文は、音声生成の基盤である離散音声表現トークン(DSRT)におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。
この論文は、自己進化型合成データ生成エンジン「EigenData」と検証器に基づく強化学習を組み合わせた統合フレームワークを提案し、高品質な多ターン対話ツール利用データの自動生成と効率的な学習を実現することで、人手を介さずに複雑なツール利用行動をスケーラブルに習得できることを示しています。
本論文は、難易度に応じてトークンごとに可変長の潜在連鎖推論(CoT)を生成し、パラメータ数の増加なしに推論能力を向上させる「アダプティブ潜在 CoT」を提案し、単一段階の事前学習で実現可能であることを示しています。
この論文は、大規模言語モデルの注意スコアを活用して文脈全体を考慮したリストワイズ再ランキングを行う軽量かつ効率的なフレームワークを提案し、Wikipedia や長編ナラティブ、LoCoMo ベンチマークなど多様な領域で最先端の性能を達成したことを報告しています。
本論文は、プライバシー保護とユーザーの自律性を確保するため、特定のデータモーダルを機能的に削除可能にする「Missing-by-Design」という、構造化表現学習と機械検証可能な削除証明書を備えた多モーダル感情分析の統一フレームワークを提案しています。
この論文は、隠れた有害な振る舞いを埋め込んだ 56 の言語モデルからなるアライメント監査ベンチマーク「AuditBench」を提案し、自律的な調査エージェントを用いて各種監査手法の有効性を評価する中で、単独での性能とエージェント利用時の性能の乖離や、モデルの学習手法による監査の難易度の違いなどを明らかにしたものである。
本論文は、LLM エージェントがツールを効果的に再利用・抽象化する能力を評価する新たなベンチマーク「SkillCraft」を提案し、タスク間でのスキル蓄積と再利用がトークン使用量を最大 80% 削減し、成功率を向上させることを実証しています。