DRBench: A Realistic Benchmark for Enterprise Deep Research

이 논문은 공개 웹과 기업 내부 지식 베이스를 모두 활용하여 복잡한 다단계 조사 과제를 수행하는 AI 에이전트의 능력을 평가하기 위해 서비스노우에서 개발한 'DRBench'라는 새로운 벤치마크와 100 개의 실제 시나리오를 소개합니다.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

AlphaApollo: A System for Deep Agentic Reasoning

이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

이 논문은 내비게이션 에이전트의 공간 지능을 체계적으로 평가하기 위해 'NavSpace' 벤치마크를 제안하고, 이를 통해 기존 모델들의 한계를 드러내며 새로운 공간 지능 내비게이션 모델인 'SNav'를 개발하여 우수한 성능을 입증했습니다.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

이 논문은 LLM 기반의 다중 에이전트 토론을 시뮬레이션하고 이를 이질적 그래프로 구조화하여 그래프 신경망으로 추론하는 'ReViewGraph' 프레임워크를 제안함으로써, 기존 자동 논문 심사 방법의 한계를 극복하고 심사자 - 저자 간 논쟁 구조를 정교하게 반영한 더 정확한 심사 결정을 가능하게 합니다.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

이 논문은 2021 년부터 2024 년까지의 565 만 건의 과학 논문 데이터를 분석한 결과, 생성형 AI 도구의 사용이 비영어권 국가의 저자들이 미국식 과학 영어에 더 빠르게 수렴하도록 하여 언어적 장벽을 낮추고 있음을 보여준다고 요약할 수 있습니다.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

이 논문은 기존 연구의 한계인 가짜 다중모달성과 사용자 동질성 문제를 해결하기 위해, 사용자의 장기적 성향을 반영한 'U-MStance' 데이터셋과 이를 기반으로 한 다중모달 스탠스 감지 프레임워크 'PRISM'을 제안합니다.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

이 논문은 가짜 뉴스 탐지와 확산 예측을 비교 분석하여, 텍스트 임베딩이 갖춰진 경우 탐지 작업은 안정적이지만 확산 예측은 운영적 선택에 민감함을 보여주며, 제한된 자원 환경에서도 최첨단 성능을 낼 수 있는 경량화되고 투명한 파이프라인을 제안합니다.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

이 논문은 LLM 기반 심층 연구 에이전트가 생성한 전문가 수준의 보고서를 평가하기 위해 전문가가 개발한 7 차원 25 하위 차원의 세분화된 평가 체계와 주장 검증 아키텍처를 포함한 'DEER'라는 새로운 벤치마크를 제안하고, 현재 시스템이 구조적 완성도는 갖췄지만 전문가 요구 충족과 논리적 완결성 측면에서 개선의 여지가 있음을 밝혔습니다.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

이 논문은 EVM 호환 체인에서 자연어 기반 트랜잭션 코드 생성의 실행 정확성과 안전성을 평가하기 위해 동적 검증 방식을 도입한 새로운 벤치마크인 'EVM-QuestBench'를 제안하고, 이를 통해 다양한 대규모 언어 모델들의 성능 격차와 단일 작업 대비 다단계 워크플로우 수행 능력의 비대칭성을 분석합니다.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

이 논문은 고품질의 다턴 도구 사용 데이터를 생성하고 검증 기반 강화 학습을 통해 사용자 시뮬레이션 노이즈를 줄이는 통합 프레임워크인 'EigenData'를 제안하여, 고비용 인간 라벨링 없이도 복잡한 도구 사용 에이전트를 확장 가능하게 학습시키는 방법을 제시합니다.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

이 논문은 매 토큰 생성 전에 난이도에 따라 가변적인 길이의 잠재적 사고 체인 (Latent CoT) 을 자동으로 생성하여 모델 파라미터를 늘리지 않고도 언어 모델의 성능을 향상시키고 계산 효율성을 높이는 새로운 사전 학습 방법을 제안합니다.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

이 논문은 14 가지 숨겨진 행동을 가진 56 개의 언어 모델을 포함하는 정렬 감사 벤치마크인 'AuditBench'를 소개하고, 이를 통해 다양한 감사 도구의 효능과 모델 학습 기법에 따른 감사 난이도 차이를 평가하는 자율 감사 에이전트 프레임워크를 제시합니다.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

이 논문은 에이전트가 도구를 재사용 가능한 고수준 '스킬'로 추상화하고 재구성할 수 있는 능력을 평가하기 위한 새로운 벤치마크 'SkillCraft'를 제안하고, 이를 통해 에이전트의 토큰 사용량을 최대 80%까지 줄이면서 성공률을 높일 수 있음을 입증했습니다.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL