DRBench: A Realistic Benchmark for Enterprise Deep Research

本論文は、企業の深層調査タスクを評価するための新しいベンチマーク「DRBench」を提案し、公開 Web と社内ナレッジベースの両方から情報を統合して多段階の複雑な質問に答える AI エージェントの能力を、10 の異なるドメインにわたる 100 のタスクを用いて包括的に評価する手法を提示しています。

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

本論文は、言語モデルの推論能力と事実知識を分離して評価するための「SynthWorlds」というフレームワークを提案し、現実世界と構造的に同一だが知識が無意味な合成世界という平行コーパスを用いて、両者の区別が依然として課題であることを実証しています。

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

LLM による多エージェントシミュレーションで生成された査読者 - 著者間の議論を異種グラフとして表現し、グラフニューラルネットワークによる推論を通じて従来の手法を大幅に上回る精度で論文査読を自動化する「ReViewGraph」という新しい枠組みが提案されています。

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

この論文は、2021 年から 2024 年の 565 万件の科学論文を分析し、生成 AI の利用が英語圏以外の研究者による学術的英語のスタイルを、特に言語的距離が大きい国や低インパクトのジャーナルにおいて、米国英語へと収束させる傾向を強めていることを示しています。

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

本論文は、現実のマルチモーダルな対話環境におけるユーザーのスタンス検出を目的として、ユーザー中心の新しいデータセット「U-MStance」を構築し、ユーザーのパーソナリティを考慮して視覚・言語情報を統合的に推論するフレームワーク「PRISM」を提案するものである。

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

この論文は、虚偽ニュース検出から拡散予測への研究の転換に伴う実装上の課題を、EVONS と FakeNewsNet の 2 つのデータセットを用いた評価先行アプローチで検証し、拡散予測の精度が閾値設定や早期観測ウィンドウなどの運用選択に大きく依存する一方、強力なテキスト埋め込みが得られれば虚偽ニュース検出は比較的安定していることを示し、限られたリソースでも最先端と競合可能な軽量かつ透明なパイプラインの構築方法を提案しています。

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

この論文は、LLM による専門レポート生成の評価課題を解決するため、専門家が策定した詳細な評価基準と主張検証アーキテクチャを備えたベンチマーク「DEER」を提案し、既存の深層研究システムが構造的には優れているものの、専門的な要求の充足や論理的完全性において改善の余地があることを明らかにしています。

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

本論文は、従来の活性化量に基づく手法の限界を克服し、ターゲット言語への予測への機能的貢献度を評価する介入ベースのフレームワーク「CRANE」を提案することで、多言語大規模言語モデルにおける言語固有のニューロンをより精密に特定し、言語選択的かつ非排他的な専門化の存在を実証するものである。

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

本論文は、EVM 互換チェーンにおける自然言語によるトランザクションコード生成の安全性と実行精度を動的に評価するためのベンチマーク「EVM-QuestBench」を提案し、20 のモデルを評価して単一動作の精度と多段階ワークフローの完了率の間に大きな非対称性があることを明らかにしたものである。

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

本論文は、音声生成の基盤である離散音声表現トークン(DSRT)におけるアクセント情報の符号化を初めて体系的に調査し、アクセントの可視化と復元を評価する新たな枠組みを用いて、層の選択が最も重要であり、ASR による監督がアクセント情報を大幅に減少させること、そして単純なコードブック縮小ではアクセントを他の情報から分離できないことを明らかにしました。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

この論文は、自己進化型合成データ生成エンジン「EigenData」と検証器に基づく強化学習を組み合わせた統合フレームワークを提案し、高品質な多ターン対話ツール利用データの自動生成と効率的な学習を実現することで、人手を介さずに複雑なツール利用行動をスケーラブルに習得できることを示しています。

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

本論文は、難易度に応じてトークンごとに可変長の潜在連鎖推論(CoT)を生成し、パラメータ数の増加なしに推論能力を向上させる「アダプティブ潜在 CoT」を提案し、単一段階の事前学習で実現可能であることを示しています。

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

この論文は、大規模言語モデルの注意スコアを活用して文脈全体を考慮したリストワイズ再ランキングを行う軽量かつ効率的なフレームワークを提案し、Wikipedia や長編ナラティブ、LoCoMo ベンチマークなど多様な領域で最先端の性能を達成したことを報告しています。

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

本論文は、プライバシー保護とユーザーの自律性を確保するため、特定のデータモーダルを機能的に削除可能にする「Missing-by-Design」という、構造化表現学習と機械検証可能な削除証明書を備えた多モーダル感情分析の統一フレームワークを提案しています。

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

この論文は、隠れた有害な振る舞いを埋め込んだ 56 の言語モデルからなるアライメント監査ベンチマーク「AuditBench」を提案し、自律的な調査エージェントを用いて各種監査手法の有効性を評価する中で、単独での性能とエージェント利用時の性能の乖離や、モデルの学習手法による監査の難易度の違いなどを明らかにしたものである。

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

本論文は、LLM エージェントがツールを効果的に再利用・抽象化する能力を評価する新たなベンチマーク「SkillCraft」を提案し、タスク間でのスキル蓄積と再利用がトークン使用量を最大 80% 削減し、成功率を向上させることを実証しています。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL