cs.CL 편의 논문 | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

← 이전 다음 →

cs.CL

DRBench: A Realistic Benchmark for Enterprise Deep Research

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Rethinking Discrete Speech Representation Tokens for Accent Generation

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Query-focused and Memory-aware Reranker for Long Context Processing

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?