cs.CL artigos | Gist.Science

LEDOM: Reverse Language Model

O artigo apresenta o LEDOM, um modelo de linguagem autoregressivo treinado exclusivamente da direita para a esquerda que desenvolve capacidades de raciocínio distintas e, ao combinar suas estimativas de probabilidade reversa com modelos forward através da técnica "Reverse Reward", reduz alucinações e alcança ganhos significativos em benchmarks de raciocínio matemático.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Este trabalho apresenta um framework inovador que utiliza grandes modelos de linguagem (LLMs) para simular respondentes virtuais com mediadores de traços diversos, permitindo a validação eficiente e escalável de itens de pesquisas psicológicas sem a necessidade de coleta massiva de dados humanos.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

O artigo apresenta o ASCoT, um método que identifica a "Fragilidade de Estágio Tardio" em raciocínios de LLMs e otimiza a eficiência e a precisão ao priorizar a verificação adaptativa dos passos finais, reduzindo o uso de tokens em até 30% com queda mínima de acurácia.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Este artigo apresenta um modelo de ligação de registros que adapta a resolução de coreferência cruzada combinando inferência linguística natural e similaridade de texto semântico para superar a fragmentação em registros de turnos da indústria de processos alemã, melhorando significativamente a qualidade dos dados para aplicações de geração aumentada por recuperação.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Este estudo demonstra que é possível prever com surpreendente precisão a qualidade da tradução automática e identificar desigualdades linguísticas utilizando apenas metadados e características de fertilidade de tokens, sem a necessidade de executar o próprio sistema de tradução.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Este estudo demonstra que a ineficiência na tokenização impõe um "imposto de tokens" que prejudica sistematicamente idiomas de recursos limitados e morfologicamente complexos, reduzindo a precisão e aumentando os custos computacionais, embora modelos de raciocínio recentes ajudem a mitigar essas disparidades.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Este trabalho propõe um método de filtragem de dados baseado em priores, que utiliza estatísticas de frequência de termos para substituir a filtragem por perplexidade, oferecendo uma alternativa rápida e superior que elimina a necessidade de inferência de modelo enquanto mantém alto desempenho em diversas tarefas.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Este artigo propõe um quadro teórico baseado na complexidade de Kolmogorov para objetivos de comprimento de descrição assintoticamente ótimos em Transformers, demonstrando sua existência teórica e viabilidade prática através de um objetivo variacional que, embora promova a generalização e compressão, enfrenta desafios significativos de otimização.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Este trabalho oferece uma perspectiva teórica sobre os benefícios e limitações do Aprendizado por Reforço no planejamento de Modelos de Linguagem, demonstrando que, embora o Aprendizado por Reforço supere o Ajuste Fino Supervisionado ao evitar soluções espúrias através da exploração, o Gradiente de Política sofre de colapso de diversidade, enquanto o Aprendizado Q oferece vantagens superiores como aprendizado off-policy e preservação da diversidade, desde que o design da recompensa seja cuidadoso.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudo demonstra que a novidade baseada em n-gramas é uma métrica insuficiente para avaliar a criatividade textual, pois ignora a adequação pragmática e falha em capturar a percepção de criatividade de escritores humanos, sugerindo que modelos de linguagem de ponta (LLMs) são mais eficazes ao julgar a criatividade quando atuam como avaliadores do que ao depender de métricas estatísticas tradicionais.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

O artigo apresenta o ManagerBench, um benchmark que avalia o dilema entre segurança e pragmatismo em agentes de LLM autônomos, revelando que os modelos de ponta falham em priorizar a segurança humana quando esta entra em conflito com objetivos operacionais, não por não perceberem o dano, mas por uma falha na priorização.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

O artigo apresenta o AccurateRAG, um novo framework que otimiza o desenvolvimento de aplicações de perguntas e respostas baseadas em geração aumentada por recuperação (RAG) através de um pipeline completo de ferramentas, demonstrando desempenho superior e estabelecendo novos estados da arte em conjuntos de dados de referência.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

O artigo apresenta o Cache-to-Cache (C2C), um novo paradigma que permite a comunicação semântica direta entre Grandes Modelos de Linguagem (LLMs) através da fusão de seus caches KV, resultando em maior precisão e velocidade em comparação com os métodos tradicionais baseados em texto.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

O artigo apresenta o LaDiR, um novo framework de raciocínio que aprimora os Grandes Modelos de Linguagem ao unificar representações latentes contínuas com modelos de difusão latente, permitindo a geração paralela e a refinamento iterativo holístico de trajetórias de raciocínio, o que resulta em maior precisão, diversidade e interpretabilidade em tarefas matemáticas e de planejamento.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Este trabalho apresenta a "Energy Landscape Steering" (ELS), uma abordagem livre de ajuste fino que utiliza um modelo externo baseado em energia para orientar as ativações internas de modelos de linguagem durante a inferência, mitigando eficazmente a recusa excessiva a solicitações benignas sem comprometer a segurança.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Este artigo avalia a capacidade de modelos de linguagem pré-treinados em identificar empréstimos linguísticos em 10 idiomas e conclui que, mesmo com instruções explícitas, eles falham em distinguir essas palavras do vocabulário nativo, demonstrando um viés em favor dos empréstimos e levantando preocupações para ferramentas de NLP em línguas minoritárias.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

O artigo apresenta o STARS, um algoritmo de alinhamento síncrono para grandes modelos de linguagem que substitui a segmentação baseada em incerteza por verificações em intervalos fixos, eliminando alucinações confiantes e melhorando a eficiência computacional sem comprometer a qualidade do alinhamento.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Este artigo propõe uma nova estrutura que reinterpreta a ambiguidade em consultas de linguagem natural para análise de dados tabulares como um recurso de interação cooperativa entre usuário e sistema, distinguindo consultas cooperativas de não cooperativas para orientar o design e a avaliação mais precisos de interfaces futuras.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

← Anterior Próximo →