A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Este artigo apresenta um modelo de substituição que preserva simultaneamente a distribuição de frequências e a estrutura de correlações de longo alcance em sequências simbólicas, como linguagem e DNA, ao mapear ruído gaussiano fracionário no histograma empírico, permitindo assim isolar características estruturais e testar hipóteses sobre leis de escala e efeitos de memória nesses domínios.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

O artigo apresenta o HELIOS, um modelo inovador que supera as limitações das abordagens de fusão precoce e tardia na recuperação de tabelas e textos ao combinar a extração de subgrafos bipartidos baseada em arestas, a expansão dinâmica de nós relevantes e o refinamento por LLM baseado em estrelas, alcançando desempenho superior no benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Este artigo apresenta uma caracterização teórica e empírica do fenômeno de memorização em Modelos de Linguagem de Difusão (DLMs), demonstrando que eles exibem um risco significativamente menor de vazamento de informações pessoalmente identificáveis (PII) em comparação com os Modelos de Linguagem Autoregressivos (ARMs) devido à sua dinâmica de geração.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

O artigo apresenta o RO-N3WS, um novo conjunto de dados de fala em romeno com mais de 126 horas de áudio diversificado, demonstrando que o ajuste fino limitado com esses dados melhora significativamente a generalização e reduz a taxa de erro de palavras em sistemas de reconhecimento de fala automática, especialmente em cenários de recursos limitados e condições fora de distribuição.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Este artigo propõe um modelo de grafo direcionado e um framework experimental para estudar visualizações de texto dependentes do tempo, utilizando textos sintéticos gerados por LLMs em um estudo com 30 participantes, que revelou a dificuldade dos usuários em interpretar padrões predefinidos e a necessidade de visualizações mais adaptáveis às necessidades individuais.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

O artigo apresenta o MUSE, uma plataforma de código aberto e centrada em execuções para avaliação unificada de segurança multimodal de modelos de linguagem, que integra geração automática de payloads, ataques multi-turno com troca de modalidades e uma métrica dual para demonstrar que estratégias iterativas podem explorar falhas de alinhamento que testes de turno único não detectam.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

O artigo apresenta o CoDAR, um novo framework de dois estágios que supera as limitações de arredondamento dos modelos de difusão contínua ao combinar um processo de difusão no espaço de embeddings com um decodificador autoregressivo contextualizado, resultando em qualidade de geração competitiva com modelos discretos e permitindo um controle flexível entre fluência e diversidade.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

O artigo apresenta o FlashEvaluator, um novo paradigma para o framework Gerador-Avaliador que supera as limitações de paralelização e comparação cruzada dos métodos tradicionais ao processar múltiplas sequências em uma única passagem, resultando em maior eficiência computacional e precisão, com validação teórica, experimental e sucesso prático no sistema de recomendação online do Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL