cs.CL artigos | Gist.Science

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

O artigo apresenta o SarcasmMiner, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza uma estratégia de destilação dual e otimização GRPO para melhorar o raciocínio sobre sarcasmo multimodal, alcançando um F1 de 70,22% no conjunto de dados MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Knowledge Divergence and the Value of Debate for Scalable Oversight

Este artigo estabelece uma conexão formal entre debate e RLAIF, demonstrando que o valor do debate para a supervisão escalável de IA depende geometricamente da divergência de conhecimento entre os modelos, variando de regimes onde é desnecessário a outros onde é essencial para acessar informações latentes inacessíveis a um único agente.

Robin Young2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

O artigo apresenta o Med-V1, uma família de modelos de linguagem pequenos e eficientes que, apesar de terem apenas três bilhões de parâmetros, superam seus modelos base e competem com modelos de ponta como o GPT-5 na atribuição de evidências biomédicas e na detecção de alucinações, oferecendo uma alternativa escalável e de baixo custo para aplicações práticas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Este artigo apresenta o PersianPunc, um grande conjunto de dados de 17 milhões de amostras para restauração de pontuação em persa, e demonstra que uma abordagem baseada no modelo ParsBERT supera modelos de linguagem grandes em precisão e eficiência, evitando edições indesejadas em pipelines de reconhecimento de fala.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Este artigo apresenta um corpus multilingue de textos originais e suas versões simplificadas para "Leitura Fácil", anotados por especialistas humanos em espanhol, catalão e italiano, criado para apoiar o acesso a processos democráticos participativos e preencher a lacuna de recursos de alta qualidade para essas línguas.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Este estudo avalia 11 algoritmos de fusão de modelos para adaptação multido-mínio em reconhecimento automático de fala (ASR) em português europeu, propondo o novo método BoostedTSV-M que supera o ajuste fino completo em precisão e estabilidade numérica enquanto preserva a generalização.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

O artigo apresenta o DiSCTT, um framework de auto-curriculum guiado por consenso que melhora a eficiência e a estabilidade da adaptação em tempo de teste para modelos de raciocínio ao atribuir dinamicamente estratégias de otimização baseadas na incerteza epistêmica e no nível de acordo entre trajetórias de raciocínio amostradas.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

O artigo propõe o método Progressive Residual Warmup (ProRes), que estabiliza e acelera o pré-treinamento de modelos de linguagem ao adiar o aprendizado das camadas mais profundas até que as camadas iniciais se estabilizem, resultando em melhor convergência e desempenho downstream.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Este estudo demonstra que modelos de linguagem de baixo parâmetro (<4B), quando fine-tunados com estratégias de raciocínio centrado em *Chain-of-Thought* e análise de palavras vizinhas, alcançam desempenho comparável ao de modelos de grande porte como o GPT-4-Turbo na tarefa de Desambiguação de Sentido de Palavras, oferecendo uma solução escalável e energeticamente eficiente.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Este estudo demonstra que modelos de IA grandes detectam representações injetadas por meio de dois mecanismos distintos: inferência baseada em anomalias no prompt e acesso direto a estados internos, sendo este último agnóstico ao conteúdo e consistente com teorias filosóficas e psicológicas sobre introspecção.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Este trabalho apresenta um framework unificado para combinar múltiplos modelos de linguagem em distribuições de ensemble através de uma função arbitrária, utilizando um algoritmo de Monte Carlo Sequencial em nível de byte para amostragem consistente e eficaz, superando as limitações das técnicas de agregação tradicionais.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Este artigo apresenta o quebra-cabeça de informação parcial distribuída (DPIP) e um conjunto de dados multimodais correspondente para avaliar a construção de terreno comum sob assimetria epistêmica, demonstrando que os modelos de linguagem atuais têm dificuldades em rastrear tanto o progresso da tarefa quanto os estados de crença em comparação com abordagens baseadas em lógica epistêmica dinâmica.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

O artigo apresenta o FlashAttention-4, uma nova abordagem de co-design de algoritmos e kernel que otimiza a atenção para GPUs Blackwell (como B200 e GB200), superando gargalos de hardware assimétrico através de pipelines assíncronos e técnicas de redução de operações não matriciais, alcançando até 1,3x de velocidade em relação ao cuDNN e implementado inteiramente em CuTe-DSL para compilação significativamente mais rápida.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

O artigo apresenta o corpus DEBISS, uma coleção de debates falados e individuais com características semi-estruturadas e diversas anotações para tarefas de PLN, criada para suprir a escassez de dados nessa área devido à grande variedade de formatos e aplicações de debates.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Este artigo apresenta o NCTB-QA, um grande conjunto de dados e benchmark em bengali para perguntas e respostas educacionais que inclui uma distribuição equilibrada de questões respondíveis e não respondíveis, demonstrando que o ajuste fino de modelos baseados em transformadores melhora significativamente o desempenho em cenários de baixo recurso.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Este artigo propõe e avalia a verificação de fatos sem recuperação de dados externos, introduzindo o método INTRA que explora representações internas do modelo para superar abordagens baseadas em logits e alcançar desempenho superior em cenários de generalização complexos.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

O artigo apresenta evidências de "teatro de raciocínio" em modelos de IA, onde a confiança na resposta final é decodificável muito antes do modelo revelar sua crença interna, demonstrando que sondas de ativação podem identificar genuína incerteza e permitir uma saída antecipada que reduz significativamente o uso de tokens sem comprometer a precisão.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Este artigo avalia técnicas de elicitação de honestidade e detecção de mentiras em modelos de linguagem abertos chineses que censuram tópicos politicamente sensíveis, descobrindo que métodos como amostragem sem template de chat e prompts de few-shot aumentam respostas verdadeiras, embora nenhuma técnica elimine completamente as falsidades.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Este artigo demonstra que as ativações massivas e os sumidouros de atenção, embora frequentemente co-ocorram devido a artefatos arquitetônicos como a configuração pré-norm, desempenham funções distintas e separáveis nos modelos Transformer: as primeiras atuam globalmente como parâmetros implícitos, enquanto os segundos operam localmente para modular a atenção.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

← Anterior Próximo →