cs.CL artigos | Gist.Science

Learn Hard Problems During RL with Reference Guided Fine-tuning

O artigo apresenta o ReGFT, um método que utiliza soluções de referência humanas para sintetizar trajetórias de raciocínio viáveis em problemas difíceis, superando a esparsidade de recompensas e acelerando o treinamento por reforço (RL) para raciocínio matemático em modelos de linguagem.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

O artigo apresenta o VoxKnesset, um novo conjunto de dados aberto e longitudinal com cerca de 2.300 horas de discurso parlamentar em hebraico (2009-2025) de 393 falantes, destinado a avaliar e melhorar a modelagem de sistemas de processamento de fala para o envelhecimento vocal.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

O artigo apresenta o FreeAct, um novo framework de quantização para Modelos de Linguagem de Grande Escala que supera as limitações das transformações estáticas ao utilizar matrizes de transformação específicas para cada tipo de token, adaptando-se dinamicamente às disparidades nas ativações e melhorando significativamente o desempenho em modelos multimodais e de difusão.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

O artigo propõe uma construção incremental de grafos k-NN que garante a conectividade do grafo por design, superando a fragilidade dos métodos padrão em regimes de baixa esparsidade e melhorando a robustez do agrupamento espectral de embeddings de texto.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Este estudo propõe um modelo teórico baseado em funções de conjunto com valores de conjunto para formalizar a dinâmica não linear do deslocamento de gênero gramatical e a formação de palavras, demonstrando como essas variações surgem de mudanças de modelos morfológicos, com foco empírico na língua Rifânia.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Este artigo estabelece uma conexão teórica fundamental entre complexidade computacional e arquiteturas de redes neurais, demonstrando que as RNNs lineares são altamente paralelizáveis por pertencerem à classe $\mathsf{NC}^1$ (semelhante aos Transformers), enquanto as RNNs não lineares enfrentam barreiras de paralelização ao resolverem problemas completos em $\mathsf{L}$ ou $\mathsf{P}$ .

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudo apresenta o Bielik-Q2-Sharp, a primeira avaliação sistemática de métodos de quantização extrema a 2 bits para o modelo de linguagem polonês Bielik-11B, demonstrando que o método QuIP# E8P12 atinge desempenho comparável ao baseline IQ2_XXS em benchmarks poloneses, com ganhos superiores em raciocínio e uma eficiência per-bit notável do QTIP, tudo realizado por um único pesquisador com um orçamento limitado.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

O artigo apresenta o AgentIR, um sistema de recuperação que aproveita os traços de raciocínio explícitos de agentes de pesquisa profunda para melhorar a precisão da busca, alcançando desempenho superior ao de modelos convencionais no benchmark BrowseComp-Plus.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

O artigo apresenta o SearchGym, uma infraestrutura modular de código aberto que permite a orquestração de buscas híbridas e o benchmarking cross-plataforma através de abstrações desacopladas e uma álgebra de configuração composicional, demonstrando que a ordem ótima de filtragem e classificação semântica depende da força do filtro e alcançando uma taxa de recuperação de 70% no benchmark LitSearch.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

O artigo apresenta o FinRetrieval, um novo benchmark com 500 perguntas de recuperação de dados financeiros que demonstra que a disponibilidade de ferramentas de API estruturada é o fator determinante para o desempenho dos agentes de IA, superando significativamente a busca na web e revelando variações de desempenho baseadas em configurações de raciocínio e convenções geográficas.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudo valida um framework de Modelo de Linguagem Grande (LLM) que, ao analisar mais de 16.000 avaliações não estruturadas, revela uma desconexão entre as melhorias operacionais e a queda na satisfação dos passageiros da EgyptAir, demonstrando a superioridade dessa abordagem em relação às métricas tradicionais para identificar drivers críticos de insatisfação.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

O artigo propõe o CTRL-RAG, um novo framework de recompensa híbrido baseado em Reinforcement Learning que utiliza uma Recompensa de Verossimilhança Contrastiva (CLR) para otimizar a fé dos modelos de linguagem em documentos de contexto, superando as limitações das recompensas externas e prevenindo o colapso do modelo em cenários de RAG.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

O estudo demonstra que o desalinhamento emergente em modelos de linguagem é fundamentalmente contido por gatilhos semânticos, mesmo quando os modelos são treinados exclusivamente com dados prejudiciais e nunca expostos a comportamentos benignos, revelando uma vulnerabilidade crítica de segurança que persiste independentemente da mistura de dados de treinamento.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Este artigo propõe o paradigma "Probing Memes", que utiliza o conceito de memes para redefinir a avaliação de LLMs como um mundo entrelaçado de modelos e dados, permitindo uma análise granular das interações entre itens e modelos que revela estruturas de capacidade ocultas e comportamentos populacionais invisíveis sob as métricas tradicionais.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

O artigo apresenta o framework HUMAINE, que utiliza um conjunto de dados demograficamente estratificado de 23.404 participantes e um modelo hierárquico bayesiano para revelar que, embora o modelo *gemini-2.5-pro* seja o líder geral, as preferências humanas variam significativamente entre grupos etários e dimensões de avaliação, destacando a necessidade de uma metodologia de avaliação multidimensional e demograficamente consciente para LLMs.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artigo apresenta o SalamahBench, um benchmark unificado para avaliação de segurança de Modelos de Linguagem em Árabe, que revela disparidades significativas na robustez de diferentes modelos e destaca a necessidade de mecanismos de proteção especializados e avaliações específicas por categoria.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

O artigo apresenta o DynaKV, um framework de pós-treinamento inovador que otimiza a compressão de cache KV em modelos de linguagem grandes ao alocar dinamicamente taxas de compressão baseadas no significado semântico de cada token, superando métodos existentes ao reduzir significativamente o uso de memória sem comprometer a qualidade da geração.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Este artigo propõe uma aproximação teórica da dinâmica de Grandes Modelos de Linguagem utilizando cadeias de Markov aditivas de N ordens, estabelecendo uma equivalência com cadeias de memória passo a passo que permite definir o conceito de temperatura de informação e mitigar a explosão combinatória em espaços de alta dimensão.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Este artigo propõe e valida a métrica Inductive Conceptual Rating (ICR), um framework qualitativo que integra semiótica e hermenêutica para avaliar a precisão semântica e a alinhamento de significado em resumos gerados por LLMs, demonstrando que, embora essas modelos apresentem alta similaridade lexical, frequentemente falham em capturar significados contextualmente fundamentados em comparação com a produção humana.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

O artigo apresenta o RoBERTa-OTA, um modelo inovador que integra mecanismos de atenção guiados por ontologia e Redes Neurais de Grafos ao RoBERTa para detectar discurso de ódio multiclasse com maior precisão e eficiência, superando os métodos existentes ao combinar compreensão contextual com conhecimento semântico estruturado.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

← Anterior Próximo →