OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

O artigo apresenta o OfficeQA Pro, um novo benchmark que avalia a capacidade de agentes de IA de realizar raciocínio fundamentado em grandes corpora de documentos heterogêneos, revelando que os modelos de ponta atuais ainda apresentam desempenho insuficiente para aplicações empresariais confiáveis, embora representações estruturadas de documentos possam melhorar significativamente sua precisão.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Este estudo demonstra que a sequência de avaliação ("Avaliar Primeiro" versus "Escrever a Análise Primeiro") polariza as classificações dos consumidores, aumentando-as em serviços de alta qualidade e diminuindo-as em serviços de baixa qualidade, um efeito mediado por heurísticas afetivas e esforço cognitivo que é amplificado em produtos hedônicos e confirmado por dados reais de plataformas como Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

O artigo propõe o "Differentiable Geometric Indexing" (DGI), uma abordagem de recuperação generativa que resolve conflitos de otimização e geométricos ao unificar a indexação diferenciável via *Soft Teacher Forcing* e otimização isotrópica em hipersfera, superando métodos existentes e demonstrando maior robustez em cenários de cauda longa.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

A Hypergraph-Based Framework for Exploratory Business Intelligence

O artigo apresenta o ExBI, um sistema inovador baseado em hipergrafos que supera as limitações da Inteligência de Negócios tradicional ao permitir a evolução dinâmica de esquemas e a reutilização de visões materializadas, alcançando acelerações significativas de desempenho e alta precisão em workflows exploratórios de grande escala.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Este trabalho propõe o TriRec, um novo framework de recomendação baseado em agentes de LLM que coordena a utilidade do usuário, a exposição dos itens e a justiça da plataforma em duas etapas, demonstrando que a autopromoção dos itens pode simultaneamente melhorar a precisão e a equidade, superando o compromisso tradicional entre relevância e justiça.

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

Este artigo demonstra que o uso de dados estruturados vinculados, especificamente através de páginas de entidades otimizadas com instruções para agentes e interligação neural, melhora significativamente a precisão e a qualidade das respostas em sistemas de Geração Aumentada por Recuperação (RAG) padrão e orientados a agentes, superando abordagens baseadas apenas em texto plano ou metadados JSON-LD simples.

Andrea Volpini, Elie Raad, Beatrice Gamba, David RiccitelliThu, 12 Ma🤖 cs.AI

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Este estudo apresenta um pipeline assistido por LLM que converte quatro protocolos de identificação de metáforas em scripts de regras executáveis e auditáveis, demonstrando que a escolha do protocolo é a principal fonte de variação nos resultados e que essa abordagem garante transparência total e desempenho competitivo na identificação de metáforas em chinês.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Este artigo apresenta um novo corpus bilíngue (inglês/alemão) e uma taxonomia de arquivo de autoridade (GND) para treinar e avaliar sistemas de classificação de texto multi-rótulo, visando aprimorar a indexação e o trabalho dos catalogadores em bibliotecas digitais por meio de IA transparente e baseada em autoridade.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

O artigo apresenta o PharmGraph-Auditor, um sistema híbrido que combina uma Base de Conhecimento Farmacêutico (HPKB) com um paradigma de Verificação em Cadeia (CoV) para transformar modelos de linguagem em motores de raciocínio transparentes e baseados em evidências, visando aumentar a segurança e a rastreabilidade na verificação de prescrições médicas.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI