cs.CL artigos | Gist.Science

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artigo apresenta a primeira aquisição simultânea de vídeo de ressonância magnética em tempo real, EEG e EMG de superfície para capturar movimentos articulares, atividade muscular e sinais cerebrais durante a produção da fala, introduzindo um pipeline de supressão de artefatos para superar os desafios técnicos dessa abordagem multimodal.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Este artigo demonstra teoricamente que o alinhamento baseado em RLHF é superficial porque os gradientes de treinamento desaparecem após o ponto em que o dano é determinado, e propõe uma nova função objetivo baseada em penalidades de recuperação para garantir sinais de gradiente em todas as posições da sequência.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

O artigo apresenta o SinhaLegal, um corpus de benchmark composto por cerca de 2 milhões de palavras extraídas de leis e projetos de lei em cingalês, que serve como recurso fundamental para tarefas de Processamento de Linguagem Natural, como extração de informações e análise no domínio jurídico.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

O artigo apresenta o HACHIMI, um framework multiagente escalável que gera um corpus de 1 milhão de perfis de alunos sintéticos e controlados, alinhados a teorias educacionais e distribuições demográficas, demonstrando alta fidelidade em constructos cognitivos e motivacionais para simulações sociais e avaliação de LLMs educacionais.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

O artigo apresenta o FireBench, um novo benchmark de código aberto com mais de 2.400 amostras que avalia a capacidade de modelos de linguagem seguirem instruções em cenários empresariais e de API, preenchendo a lacuna deixada por benchmarks existentes focados apenas em assistentes de chat.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Os autores propõem uma intervenção de baixo custo e sem necessidade de re-treinamento para modelos de linguagem difusivos, que modifica sequencialmente amostras intermediárias para repelir redundâncias no espaço de características, resultando em maior diversidade e melhor desempenho Pass@ $k$ em tarefas complexas como geração de código e resolução de problemas matemáticos.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Este estudo avalia a capacidade de modelos de linguagem (LLMs) de capturar a incerteza de especialistas na análise qualitativa de valores humanos, constatando que, embora superem em métricas de conjunto e se aproximem do desempenho humano, eles divergem nos padrões de incerteza e nas classificações exatas, sendo que o modelo Qwen e métodos de ensemble demonstraram o melhor alinhamento com as análises de especialistas.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este artigo demonstra que as intervenções de alinhamento em modelos de linguagem, embora eficazes em inglês, podem gerar um "efeito colateral de alinhamento" que inverte a segurança e amplifica patologias coletivas em outros idiomas, revelando que a eficácia da segurança é estruturalmente determinada pelo espaço linguístico e cultural e não se transfere universalmente.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Este artigo apresenta um pipeline inovador baseado em LLMs agênticos para a tarefa 10 do SemEval-2026, que utiliza uma arquitetura decoplada com "Dynamic Discriminative Chain-of-Thought" para extração de marcadores e um sistema "Anti-Echo Chamber" para detecção de endosso de teorias da conspiração, alcançando desempenho superior ao baseline e estabelecendo um novo paradigma para NLP interpretável e fundamentado psicolinguisticamente.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Este artigo apresenta o sistema AILS-NTUA para a tarefa DimABSA da SemEval-2026, que combina fine-tuning de codificadores e ajuste de instruções em modelos de linguagem com LoRA para realizar regressão, extração de tripletas e previsão de quadrupletas de sentimento baseado em aspectos de forma eficiente e multilíngue, superando consistentemente as linhas de base.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Este artigo propõe um paradigma de "correspondência e fusão" com algoritmos genéticos e de aprendizado por reforço para otimizar a agregação de modelos de linguagem heterogêneos em sistemas de reconhecimento automático de fala federados, demonstrando que o algoritmo reforçado (RMMA) alcança menor taxa de erro e convergência mais rápida em comparação com métodos existentes.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

O artigo apresenta o LocalSUG, um framework baseado em LLM para sugestão de consultas em serviços locais que supera as limitações de sistemas tradicionais ao integrar grounding geográfico, otimizar o viés de exposição com um algoritmo GRPO guiado por busca em feixe e reduzir a latência de inferência, resultando em melhorias significativas no CTR e na taxa de resultados nulos em testes reais.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

O artigo apresenta o TimeWarp, um benchmark que avalia a robustez de agentes web diante de mudanças no design e layout da internet, e propõe o algoritmo TimeTraj, que utiliza destilação de planos em múltiplas versões de interface para superar as limitações da clonagem de comportamento tradicional e melhorar significativamente o desempenho de modelos como Qwen-3 e Llama-3.1.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

O artigo apresenta o VisionPangu, um assistente multimodal compacto de 1,7 bilhão de parâmetros que, ao combinar um codificador de visão derivado do InternVL com o modelo de linguagem OpenPangu e utilizar descrições humanas densas do conjunto de dados DOCCI, alcança desempenho competitivo na geração de legendas detalhadas e semanticamente coerentes sem depender de escalas de modelo agressivas.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Replaying pre-training data improves fine-tuning

O estudo demonstra que reproduzir dados genéricos durante o ajuste fino (fine-tuning) de modelos de linguagem, em vez de apenas misturá-los para evitar o esquecimento catastrófico, melhora significativamente a eficiência dos dados e o desempenho em tarefas de domínio específico.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

O artigo propõe a Otimização de Preferência Ponderada por Confiança (CW-PO), um framework que utiliza um modelo de linguagem fraco para reponderar amostras de treinamento, permitindo que um modelo alinhado com apenas 20% de anotações humanas supere métodos tradicionais treinados com 100% de dados humanos.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

O artigo apresenta o MPCEval, uma nova suite de benchmark e avaliação livre de referência para geração de conversas multiparte, que decompõe a qualidade em dimensões específicas e revela como objetivos de avaliação distintos impactam a análise de modelos de IA generativa.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

O artigo apresenta o Mixture of Universal Experts (MOUE), uma generalização de MoE que introduz a "largura virtual" ao reutilizar um pool universal de especialistas entre camadas, superando desafios de roteamento e balanceamento de carga para alcançar ganhos de desempenho superiores aos modelos MoE tradicionais.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Este artigo propõe um método de fusão de grandes modelos de linguagem (LLMs) baseado na média de Karcher no manifold de Fisher-Rao, que supera as limitações das abordagens heurísticas no espaço de parâmetros ao preservar a funcionalidade e evitar o colapso de representações, especialmente ao combinar múltiplos modelos heterogêneos.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

O artigo apresenta o VRM (Variational Reward Modeling), um novo quadro teórico e prático que supera as limitações dos modelos de recompensa tradicionais ao simular o processo de julgamento humano através da inferência variacional de pesos de objetivos e características semânticas, resultando em uma melhor captura das preferências autênticas e em um limite de erro de generalização mais apertado.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

← Anterior Próximo →

cs.CL