cs.CL artigos | Gist.Science

Recursive Think-Answer Process for LLMs and VLMs

O artigo propõe o Processo Recursivo de Pensar e Responder (R-TAP), um método eficiente que utiliza um gerador de confiança e recompensas complementares para permitir ciclos iterativos de raciocínio em LLMs e VLMs, resultando em respostas mais precisas e estáveis com menos erros de auto-reflexão em comparação aos métodos convencionais de inferência única.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Este artigo apresenta um modelo de substituição que preserva simultaneamente a distribuição de frequências e a estrutura de correlações de longo alcance em sequências simbólicas, como linguagem e DNA, ao mapear ruído gaussiano fracionário no histograma empírico, permitindo assim isolar características estruturais e testar hipóteses sobre leis de escala e efeitos de memória nesses domínios.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

O artigo demonstra que a evolução sustentável de modelos de linguagem por meio de autojogo depende de um pipeline de dados auto-sintetizados que garanta ganho de informação aprendível, alcançado através de três estratégias: co-evolução assimétrica, crescimento de capacidade e busca proativa de informação.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

O artigo demonstra que, em transformadores esparsos treinados de ponta a ponta, o fenômeno de "absorção de roteamento" faz com que as projeções Q/K/V se adaptem a qualquer máscara, tornando os mecanismos de gate aprendidos ineficazes em comparação com gates aleatórios e sugerindo que abordagens pós-hoc são necessárias para evitar essa co-adaptação.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Este estudo demonstra que, em ambientes de agentes de IA, o treinamento de segurança persiste mesmo após a otimização subsequente para ajudar, e que todas as configurações de treinamento convergem para uma fronteira de Pareto linear, em vez de encontrar uma estratégia ideal que combine ambos os objetivos.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

O artigo apresenta o HELIOS, um modelo inovador que supera as limitações das abordagens de fusão precoce e tardia na recuperação de tabelas e textos ao combinar a extração de subgrafos bipartidos baseada em arestas, a expansão dinâmica de nós relevantes e o refinamento por LLM baseado em estrelas, alcançando desempenho superior no benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Este estudo demonstra que o modelo de tradução neural NLLB-200 aprende implicitamente tanto a estrutura genealógica das línguas quanto associações conceituais universais, revelando uma geometria de representação que reflete a organização cognitiva multilíngue humana.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Este artigo apresenta uma caracterização teórica e empírica do fenômeno de memorização em Modelos de Linguagem de Difusão (DLMs), demonstrando que eles exibem um risco significativamente menor de vazamento de informações pessoalmente identificáveis (PII) em comparação com os Modelos de Linguagem Autoregressivos (ARMs) devido à sua dinâmica de geração.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

O artigo apresenta o RO-N3WS, um novo conjunto de dados de fala em romeno com mais de 126 horas de áudio diversificado, demonstrando que o ajuste fino limitado com esses dados melhora significativamente a generalização e reduz a taxa de erro de palavras em sistemas de reconhecimento de fala automática, especialmente em cenários de recursos limitados e condições fora de distribuição.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Este artigo propõe um modelo de grafo direcionado e um framework experimental para estudar visualizações de texto dependentes do tempo, utilizando textos sintéticos gerados por LLMs em um estudo com 30 participantes, que revelou a dificuldade dos usuários em interpretar padrões predefinidos e a necessidade de visualizações mais adaptáveis às necessidades individuais.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

O artigo propõe o GLoRIA, um framework de adaptação eficiente e interpretável para reconhecimento automático de fala em dialetos, que utiliza metadados geográficos para modular atualizações de baixo rank em um encoder pré-treinado, alcançando resultados state-of-the-art com menos de 10% dos parâmetros atualizados.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

O artigo apresenta o MUSE, uma plataforma de código aberto e centrada em execuções para avaliação unificada de segurança multimodal de modelos de linguagem, que integra geração automática de payloads, ataques multi-turno com troca de modalidades e uma métrica dual para demonstrar que estratégias iterativas podem explorar falhas de alinhamento que testes de turno único não detectam.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

O artigo apresenta o CoDAR, um novo framework de dois estágios que supera as limitações de arredondamento dos modelos de difusão contínua ao combinar um processo de difusão no espaço de embeddings com um decodificador autoregressivo contextualizado, resultando em qualidade de geração competitiva com modelos discretos e permitindo um controle flexível entre fluência e diversidade.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

O artigo apresenta o VC-STaR, um novo quadro de autoaprimoramento que utiliza pares de perguntas e respostas contrastivos para mitigar alucinações visuais e gerar o conjunto de dados VisCoR-55K, resultando em um desempenho superior de raciocínio visual em modelos VLMs após o ajuste fino supervisionado.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

O artigo apresenta o FlashEvaluator, um novo paradigma para o framework Gerador-Avaliador que supera as limitações de paralelização e comparação cruzada dos métodos tradicionais ao processar múltiplas sequências em uma única passagem, resultando em maior eficiência computacional e precisão, com validação teórica, experimental e sucesso prático no sistema de recomendação online do Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

O artigo apresenta o SteerEval, um benchmark hierárquico que avalia a controlabilidade de Grandes Modelos de Linguagem em três domínios e níveis de granularidade, revelando que o controle frequentemente se degrada em especificações mais detalhadas e oferecendo um quadro unificado para garantir comportamentos seguros e previsíveis.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

O artigo apresenta o ExpGuard, um modelo de moderação especializado e seu conjunto de dados associado, ExpGuardMix, projetados para proteger grandes modelos de linguagem em domínios técnicos como finanças, medicina e direito, superando os modelos atuais na detecção de conteúdo adversário nesses contextos específicos.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

O artigo apresenta o GPUTOK, um tokenizador BPE acelerado por GPU que replica as regras de fusão do GPT-2 e oferece uma velocidade significativamente superior às implementações em CPU para contextos longos, mantendo a qualidade da saída e demonstrando potencial para otimizar a inferência de modelos de linguagem de grande escala.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Este estudo reproduz e estende o framework de Modelos de Linguagem Recursivos (RLMs), descobrindo que, embora a recursão de profundidade 1 melhore o raciocínio complexo, aumentar a profundidade ou aplicá-la a tarefas simples causa "superpensamento", degradando o desempenho e elevando exponencialmente o tempo de execução e os custos.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

O artigo apresenta o StitchCUDA, um framework automatizado baseado em múltiplos agentes e aprendizado por reforço com rubricas que gera programas GPU completos de ponta a ponta, alcançando uma taxa de sucesso de quase 100% e superando significativamente as abordagens existentes em desempenho e eficiência.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

← Anterior Próximo →