cs.CL 件の論文 | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

本論文は、企業の深層調査タスクを評価するための新しいベンチマーク「DRBench」を提案し、公開 Web と社内ナレッジベースの両方から情報を統合して多段階の複雑な質問に答える AI エージェントの能力を、10 の異なるドメインにわたる 100 のタスクを用いて包括的に評価する手法を提示しています。

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

← 前へ次へ →

cs.CL

DRBench: A Realistic Benchmark for Enterprise Deep Research

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Rethinking Discrete Speech Representation Tokens for Accent Generation

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Query-focused and Memory-aware Reranker for Long Context Processing

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?