cs.CL artigos | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

O artigo apresenta o MITRA, um assistente de IA baseado em RAG e hospedado localmente para colaborações científicas como o CMS, que utiliza um pipeline automatizado de extração de texto e uma arquitetura de banco de dados vetorial em dois níveis para recuperar com precisão informações de documentação interna de física, garantindo a privacidade dos dados.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

O artigo apresenta o One-Eval, um sistema agêntico que automatiza e torna rastreável a avaliação de modelos de linguagem grandes, convertendo solicitações em linguagem natural em fluxos de trabalho executáveis e personalizáveis para reduzir o esforço manual e aumentar a reprodutibilidade em ambientes industriais.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabalho propõe a utilização de árvores de Chow-Liu para determinar uma ordem de processamento de chunks que priorize dependências fortes, demonstrando empiricamente que essa abordagem reduz a perda de informação e supera métodos de ordenação padrão em tarefas de raciocínio de longo contexto com agentes em cadeia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Este artigo demonstra que modelos de linguagem neural cujas previsões se correlacionam mais fortemente com estatísticas simples de n-gramas são os que melhor preveem o tempo de leitura, sugerindo que esse processo cognitivo é mais sensível a padrões estatísticos básicos do que às complexas estatísticas aprendidas por transformadores modernos.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

O artigo apresenta o conjunto de dados multilíngue "DoWhatISay" (DOWIS), composto por prompts falados e escritos para avaliar modelos de linguagem de fala, revelando que os prompts textuais superam consistentemente os falados, exceto em tarefas com saída de áudio, onde a diferença diminui.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Este estudo avalia sete modelos de linguagem de ponta em dois experimentos com mais de 19 mil participantes, descobrindo que eles superam anúncios de campanha tradicionais em persuasão política, com o Claude apresentando o maior impacto e o Grok o menor, além de revelar que o uso de prompts baseados em informações afeta a eficácia persuasiva de forma dependente do modelo específico.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

O artigo propõe o MSSR, um framework de replay adaptativo que estima a força de memória em nível de amostra e agenda a reutilização de dados em intervalos dinâmicos para mitigar o esquecimento catastrófico durante o ajuste contínuo de grandes modelos de linguagem, superando os métodos existentes em eficiência e desempenho.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

O artigo demonstra que ativar o raciocínio em LLMs melhora a recuperação de conhecimento paramétrico em perguntas factuais simples através de dois mecanismos — um efeito de buffer computacional e uma priming factual —, embora também revele que alucinações em etapas intermediárias aumentem o risco de erros na resposta final.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Esta pesquisa apresenta uma revisão abrangente e estruturada do paradigma de fusão de modelos na era dos Grandes Modelos de Linguagem, introduzindo a taxonomia FUSE para analisar fundamentos teóricos, estratégias de unificação, cenários de aplicação e o ecossistema de ferramentas, visando oferecer uma base sólida para pesquisadores e praticantes avançarem nessa área.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

O estudo demonstra que, ao contrário do comportamento humano, o raciocínio em modelos de linguagem aumenta consistentemente a honestidade, não apenas pelo conteúdo do pensamento, mas porque o processo de geração de tokens deliberativos navega por um espaço representacional onde as respostas enganosas são metaestáveis e mais facilmente destabilizadas do que as honestas.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

O artigo apresenta o CREATE, um benchmark projetado para avaliar a capacidade de raciocínio associativo criativo de modelos de linguagem, focando na geração de caminhos diversos e específicos entre conceitos, e demonstra que, embora os modelos mais avançados tenham maior utilidade criativa, o benchmark permanece difícil de saturar e não garante que modelos com processos de "pensamento" sejam sempre mais eficazes.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Esta pesquisa oferece uma revisão abrangente dos avanços recentes nos Grandes Modelos de Linguagem (LLMs), abordando suas origens, técnicas principais (como pré-treinamento e ajuste fino), capacidades de utilização e avaliação, além de discutir recursos disponíveis e desafios futuros.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

O artigo apresenta o Agent-OM, um novo paradigma baseado em agentes de LLM que utiliza um framework com agentes siameses e ferramentas específicas para realizar correspondência de ontologias, demonstrando desempenho superior em tarefas complexas e de poucos exemplos em comparação com os sistemas mais avançados existentes.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

O artigo apresenta o Llama-Mob, um modelo de linguagem grande (Llama-3-8B) ajustado via instrução que supera os métodos atuais na previsão de mobilidade humana em larga escala e a longo prazo, demonstrando também notáveis capacidades de generalização zero-shot entre diferentes cidades.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Este artigo propõe um modelo integrativo que explica como a identidade do falante influencia a compreensão da linguagem através da interação entre processos perceptivos baseados em memória episódica e expectativas top-down, distinguindo efeitos de familiaridade individual e de demografia social, e sugere a extensão dessas descobertas para a interação com agentes de inteligência artificial.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Este artigo apresenta um gargalo discreto chave-valor (DKVB) para modelos de linguagem pequenos, permitindo um aprendizado contínuo eficiente que mitiga o esquecimento catastrófico através de atualizações localizadas e uma inicialização independente de tarefas, alcançando desempenho competitivo com custos computacionais reduzidos.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Este artigo investiga o fenômeno de colapso de embeddings no Prompt-Tuning, demonstrando que priores de embedding influenciam significativamente a posição dos embeddings ajustados e que as trajetórias geradas formam clusters distintos para tarefas distantes, levantando questões sobre a importância de um único cluster de ativação para a generalização dos modelos de linguagem.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Este artigo apresenta um novo framework de ensemble de modelo único para tradução automática neural que utiliza tradução pivô para gerar e agregar candidatos diversos e de alta qualidade, superando os custos computacionais e limitações dos métodos tradicionais de ensemble.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

O artigo apresenta o GRADIEND, um método inovador de codificação e decodificação que utiliza gradientes de modelos para identificar e reescrever pesos neurais, permitindo a remoção de vieses sociais (como gênero, raça e religião) em sistemas de IA sem comprometer suas outras capacidades.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Anterior Próximo →