DRBench: A Realistic Benchmark for Enterprise Deep Research

Este trabalho apresenta o DRBench, um novo benchmark realista composto por 100 tarefas de pesquisa profunda em 10 domínios empresariais, projetado para avaliar a capacidade de agentes de IA de integrar informações da web pública e bases de conhecimento privadas para gerar relatórios precisos e estruturados.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

O artigo apresenta o SynthWorlds, um framework que gera mundos paralelos sintéticos e reais com estruturas idênticas para isolar e avaliar a capacidade de raciocínio dos modelos de linguagem, demonstrando que o conhecimento paramétrico memorizado confere uma vantagem persistente mesmo em tarefas de raciocínio complexo.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

O artigo propõe o ReViewGraph, um novo framework que utiliza raciocínio sobre grafos heterogêneos construídos a partir de debates simulados entre autores e revisores por meio de LLMs para superar as limitações de métodos existentes e melhorar a precisão das avaliações de artigos.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Este estudo analisa 5,65 milhões de artigos científicos e conclui que o uso de inteligência artificial generativa promove uma convergência significativa do estilo linguístico de autores de países não falantes de inglês em direção ao padrão do inglês dos EUA, reduzindo barreiras linguísticas históricas, embora isso levante questões sobre a dependência de um único padrão linguístico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Este artigo apresenta o PRISM, um modelo multimodal centrado no usuário que supera as limitações de homogeneidade e pseudomodalidade existentes ao integrar personas longitudinais e raciocínio multimodal para melhorar a detecção de postura em conversas sociais, validado pelo novo conjunto de dados U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Este artigo compara a detecção de notícias falsas com a previsão de viralidade em dois conjuntos de dados, demonstrando que, enquanto a primeira é estável com embeddings textuais robustos, a segunda é altamente sensível a escolhas operacionais, propondo assim pipelines leves e transparentes para lidar com desafios na previsão de desordens informacionais.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

O artigo propõe o ELERAG, uma arquitetura aprimorada de Geração Aumentada por Recuperação (RAG) que integra a Vinculação de Entidades para melhorar a precisão factual em sistemas de perguntas e respostas educacionais em italiano, demonstrando que estratégias híbridas adaptadas ao domínio superam abordagens padrão em contextos especializados.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

O artigo apresenta o DEER, um benchmark que avalia relatórios de pesquisa profunda gerados por IA através de uma taxonomia detalhada de critérios de qualidade, diretrizes para juízes baseados em LLM e uma arquitetura de verificação de alegações, revelando que os sistemas atuais, embora estruturalmente plausíveis, ainda precisam melhorar na satisfação de solicitações de nível especializado e na completude lógica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

O artigo apresenta o EVM-QuestBench, um novo benchmark fundamentado na execução para avaliar a geração de scripts de transação em linguagem natural em cadeias compatíveis com EVM, utilizando validação dinâmica para garantir precisão e segurança e revelando lacunas significativas de desempenho entre modelos de linguagem em tarefas complexas.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artigo apresenta a primeira investigação sistemática sobre como as informações de sotaque são codificadas em Tokens de Representação Discreta de Fala (DSRTs), propondo um novo quadro de avaliação que revela que a escolha das camadas é o fator mais crítico para reter essas informações, enquanto a supervisão de ASR as reduz significativamente e a redução ingênua do tamanho do código não consegue separá-las eficazmente de fonética e identidade do falante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Este artigo apresenta o EigenData, um quadro unificado que combina um agente de dados auto-evolutivo para síntese de diálogos com ferramentas e verificação, com um treinamento por reforço baseado em verificador, permitindo o desenvolvimento escalável de agentes interativos de uso de ferramentas que superam ou igualam modelos de ponta sem necessidade de anotação humana cara.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Este trabalho propõe o "Pretraining com CoT Latente Adaptativa em Nível de Token", uma abordagem que internaliza cadeias de pensamento latentes de comprimento variável durante o pré-treinamento para melhorar a eficiência e o desempenho dos modelos de linguagem sem aumentar o número de parâmetros.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

O artigo apresenta o "Missing-by-Design" (MBD), um framework unificado para análise de sentimentos multimodal que permite a revogação certificada de modalidades específicas de dados, garantindo conformidade com a privacidade e autonomia do usuário sem a necessidade de retreinamento completo do modelo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

O artigo apresenta o AuditBench, um benchmark de auditoria de alinhamento composto por 56 modelos de linguagem com comportamentos ocultos implantados, que revela a eficácia variável de diferentes técnicas de auditoria e destaca uma lacuna entre o desempenho de ferramentas autônomas e agentes investigativos.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

O artigo apresenta o SkillCraft, um benchmark projetado para avaliar a capacidade de agentes LLM de abstrair e reutilizar composições de ferramentas como "habilidades" persistentes, demonstrando que essa competência não apenas melhora significativamente a eficiência (reduzindo o uso de tokens em até 80%), mas também se correlaciona fortemente com o sucesso em tarefas complexas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL