Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

O artigo propõe a Governança de Credibilidade, um mecanismo que realoca influência com base no desempenho histórico de agentes e opiniões em relação às evidências públicas, demonstrando em simulações que essa abordagem supera os métodos tradicionais de votação e ponderação por capital ao promover uma autocorreção coletiva mais rápida e robusta contra desinformação e ruído.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

O artigo apresenta o M3IRT, um framework baseado na Teoria de Resposta ao Item que decompõe a capacidade dos modelos e a dificuldade dos itens em componentes unimodais e cruzados, permitindo a identificação e priorização de questões genuinamente multimodais para criar benchmarks mais compactos, confiáveis e eficientes na avaliação do raciocínio cruzado de Modelos de Linguagem Multimodais.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

O artigo apresenta o HateMirage, um novo dataset explicável e multidimensional de 4.530 comentários que analisam o "ódio falso" (Faux Hate) derivado de desinformação, introduzindo uma estrutura de anotação baseada em alvo, intenção e implicação para superar as limitações dos conjuntos de dados existentes focados apenas em toxicidade explícita.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

O artigo apresenta o Graph-GRPO, uma nova estrutura de otimização que estabiliza a aprendizagem de topologias em sistemas multiagentes baseados em LLMs ao utilizar o Group Relative Policy Optimization para calcular vantagens relativas entre grupos de grafos, mitigando assim a variância do gradiente e melhorando a atribuição de crédito em comparação com métodos tradicionais baseados em recompensas absolutas.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

O artigo propõe o framework \textsc{ASEGR}, que utiliza um modelo de linguagem para extrair e destilar atributos sensoriais estruturados de resenhas de produtos em embeddings incorporados a modelos de recomendação sequencial, melhorando significativamente o desempenho e a interpretabilidade dos sistemas ao capturar semântica experiencial além dos padrões de interação comportamental.

Yeo Chan Yoon2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Este artigo apresenta o KMP-Bench, um benchmark abrangente para avaliar a inteligência pedagógica de Grandes Modelos de Linguagem no ensino de matemática do ensino fundamental, demonstrando que, embora os modelos atuais sejam proficientes na resolução de problemas, eles têm dificuldades na aplicação de princípios pedagógicos, mas podem ser significativamente aprimorados através do ajuste fino com o novo conjunto de dados KMP-Pile.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Este artigo apresenta um estudo de benchmark em larga escala que demonstra que modelos de linguagem multimodal (MLLMs) podem realizar extração de informações de documentos com desempenho comparável às abordagens tradicionais que utilizam OCR, sugerindo que a entrada apenas em imagem é suficiente quando combinada com instruções e exemplos bem projetados.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

O artigo apresenta o GLEAN, um framework de verificação para agentes de IA que utiliza acumulação de evidências fundamentadas em diretrizes médicas e regressão logística bayesiana para gerar sinais de correção bem calibrados, demonstrando superioridade na discriminação e calibração de diagnósticos clínicos em relação às abordagens existentes.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Este artigo apresenta uma explicação unificada sob a ótica da teoria da informação para a distribuição de frequências de fonemas nas línguas do mundo, demonstrando que, em nível macroscópico, essas distribuições seguem estatísticas de ordem de uma distribuição de Dirichlet simétrica com compensação de entropia, enquanto em nível microscópico, um modelo de máxima entropia com restrições articulares, fonotáticas e lexicais prevê com precisão as probabilidades específicas de cada língua.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Este estudo revela que, embora as informações sobre nós e estruturas globais sejam linearmente codificadas precocemente no codificador visual de modelos de linguagem e visão grandes (LVLMs), as informações sobre arestas só emergem tardiamente nos tokens de texto, o que explica as dificuldades desses modelos na compreensão de relações direcionais em diagramas.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

O artigo apresenta o Eval4Sim, um novo framework de avaliação que mede a fidelidade de simulações de personas baseadas em LLMs em relação a padrões conversacionais humanos através de três dimensões complementares — adesão, consistência e naturalidade — utilizando um corpus de conversas humanas como referência para evitar tanto a codificação insuficiente de traços quanto comportamentos excessivamente otimizados.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

O artigo apresenta o TrustMH-Bench, um benchmark abrangente que avalia a confiabilidade de modelos de linguagem grandes em saúde mental através de oito pilares fundamentais, revelando deficiências significativas no desempenho atual desses modelos e destacando a necessidade urgente de melhorias sistemáticas para garantir sua segurança e eficácia em cenários de alto risco.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL