cs.CL artigos | Gist.Science

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

O artigo propõe a Governança de Credibilidade, um mecanismo que realoca influência com base no desempenho histórico de agentes e opiniões em relação às evidências públicas, demonstrando em simulações que essa abordagem supera os métodos tradicionais de votação e ponderação por capital ao promover uma autocorreção coletiva mais rápida e robusta contra desinformação e ruído.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Este artigo propõe e avalia estratégias de decodificação baseadas em prompts, incluindo uma abordagem dinâmica de intervalos, para gerar comentários de vídeo em tempo real com multimodalidade, demonstrando que é possível alinhar o timing e o conteúdo das falas sem necessidade de ajuste fino (fine-tuning).

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

O artigo apresenta o M3IRT, um framework baseado na Teoria de Resposta ao Item que decompõe a capacidade dos modelos e a dificuldade dos itens em componentes unimodais e cruzados, permitindo a identificação e priorização de questões genuinamente multimodais para criar benchmarks mais compactos, confiáveis e eficientes na avaliação do raciocínio cruzado de Modelos de Linguagem Multimodais.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

O artigo apresenta um método inovador que reduz os efeitos de conteúdo no raciocínio de modelos de linguagem multilíngues através da abstração estrutural e da análise determinística, alcançando um desempenho de destaque no benchmark SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

O artigo apresenta o HateMirage, um novo dataset explicável e multidimensional de 4.530 comentários que analisam o "ódio falso" (Faux Hate) derivado de desinformação, introduzindo uma estrutura de anotação baseada em alvo, intenção e implicação para superar as limitações dos conjuntos de dados existentes focados apenas em toxicidade explícita.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

O artigo apresenta o Graph-GRPO, uma nova estrutura de otimização que estabiliza a aprendizagem de topologias em sistemas multiagentes baseados em LLMs ao utilizar o Group Relative Policy Optimization para calcular vantagens relativas entre grupos de grafos, mitigando assim a variância do gradiente e melhorando a atribuição de crédito em comparação com métodos tradicionais baseados em recompensas absolutas.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

O artigo propõe o framework \textsc{ASEGR}, que utiliza um modelo de linguagem para extrair e destilar atributos sensoriais estruturados de resenhas de produtos em embeddings incorporados a modelos de recomendação sequencial, melhorando significativamente o desempenho e a interpretabilidade dos sistemas ao capturar semântica experiencial além dos padrões de interação comportamental.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Este trabalho propõe o DiSE, um método simples e eficaz para quantificar a confiança em Modelos de Linguagem de Difusão (dLLMs) através da regeneração de sequências, permitindo avaliação de qualidade mais confiável, quantificação de incerteza e geração adaptativa de comprimento.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Este artigo apresenta o KMP-Bench, um benchmark abrangente para avaliar a inteligência pedagógica de Grandes Modelos de Linguagem no ensino de matemática do ensino fundamental, demonstrando que, embora os modelos atuais sejam proficientes na resolução de problemas, eles têm dificuldades na aplicação de princípios pedagógicos, mas podem ser significativamente aprimorados através do ajuste fino com o novo conjunto de dados KMP-Pile.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Este artigo apresenta um estudo de benchmark em larga escala que demonstra que modelos de linguagem multimodal (MLLMs) podem realizar extração de informações de documentos com desempenho comparável às abordagens tradicionais que utilizam OCR, sugerindo que a entrada apenas em imagem é suficiente quando combinada com instruções e exemplos bem projetados.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

O artigo apresenta o GLEAN, um framework de verificação para agentes de IA que utiliza acumulação de evidências fundamentadas em diretrizes médicas e regressão logística bayesiana para gerar sinais de correção bem calibrados, demonstrando superioridade na discriminação e calibração de diagnósticos clínicos em relação às abordagens existentes.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Este artigo demonstra que, em tarefas de rastreamento de conhecimento educacional, modelos especializados superam os Grandes Modelos de Linguagem (LLMs) em precisão, velocidade de inferência e custo de implantação, evidenciando que os LLMs não são uma solução universal para todas as tarefas.

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Este artigo apresenta uma explicação unificada sob a ótica da teoria da informação para a distribuição de frequências de fonemas nas línguas do mundo, demonstrando que, em nível macroscópico, essas distribuições seguem estatísticas de ordem de uma distribuição de Dirichlet simétrica com compensação de entropia, enquanto em nível microscópico, um modelo de máxima entropia com restrições articulares, fonotáticas e lexicais prevê com precisão as probabilidades específicas de cada língua.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Este estudo revela que, embora as informações sobre nós e estruturas globais sejam linearmente codificadas precocemente no codificador visual de modelos de linguagem e visão grandes (LVLMs), as informações sobre arestas só emergem tardiamente nos tokens de texto, o que explica as dificuldades desses modelos na compreensão de relações direcionais em diagramas.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

O artigo apresenta o Eval4Sim, um novo framework de avaliação que mede a fidelidade de simulações de personas baseadas em LLMs em relação a padrões conversacionais humanos através de três dimensões complementares — adesão, consistência e naturalidade — utilizando um corpus de conversas humanas como referência para evitar tanto a codificação insuficiente de traços quanto comportamentos excessivamente otimizados.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

O artigo apresenta o ACE-Merging, um método de fusão de modelos sem dados que utiliza uma solução de forma fechada baseada na estimativa adaptativa de covariância para mitigar interferências entre especialistas e alcançar desempenho superior ao estado da arte.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

O artigo propõe o Contextualized Defense Instructing (CDI), um novo paradigma de defesa de privacidade para agentes de LLM que utiliza um modelo instrutor otimizado por aprendizado por reforço para gerar orientações específicas ao contexto durante a execução, superando as abordagens estáticas ao alcançar um equilíbrio superior entre preservação de privacidade e utilidade.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

O artigo apresenta o MaBERT, um codificador híbrido que combina camadas de Transformer e Mamba com mecanismos de mascaramento seguros para padding, permitindo uma modelagem eficiente de contexto estendido com redução significativa no tempo de treinamento e latência de inferência.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

O artigo apresenta o TrustMH-Bench, um benchmark abrangente que avalia a confiabilidade de modelos de linguagem grandes em saúde mental através de oito pilares fundamentais, revelando deficiências significativas no desempenho atual desses modelos e destacando a necessidade urgente de melhorias sistemáticas para garantir sua segurança e eficácia em cenários de alto risco.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

O artigo apresenta o TikZilla, um conjunto de modelos de linguagem de pequeno porte treinados com o novo dataset de alta qualidade DaTikZ-V4 e um pipeline de aprendizado por reforço que utiliza recompensas semânticas baseadas em imagens, superando modelos proprietários maiores na geração de gráficos científicos em TikZ a partir de descrições textuais.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

← Anterior Próximo →