cs.CL artigos | Gist.Science

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

O HiMAP-Travel é um framework hierárquico de agentes múltiplos que supera as limitações de planejamento sequencial em viagens de longo prazo com restrições rígidas, utilizando coordenação estratégica, execução paralela e mecanismos de monitoramento transacional para alcançar desempenho superior no benchmark TravelPlanner.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

O artigo apresenta o SharedLLM, uma arquitetura inovadora que estende a janela de contexto de modelos de linguagem para além de 128K tokens com alta eficiência e precisão, utilizando um mecanismo de "auto-injeção" que empilha dois modelos curtos idênticos para compressão e decodificação de informações em múltiplas escalas sem a necessidade de custosos treinamentos contínuos.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

O artigo apresenta o TSEmbed, um framework de embeddings multimodais universal que combina Mixture-of-Experts e LoRA para resolver conflitos de tarefas, introduz uma amostragem negativa consciente de especialistas (EANS) para aprimorar a discriminação semântica e adota um paradigma de treinamento em duas etapas, alcançando desempenho superior em benchmarks e dados industriais.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este relatório técnico apresenta a Privacy Camera 2.0, um novo framework de percepção que equilibra privacidade e segurança ao transformar imagens brutas em vetores de características abstratos e irreversíveis na borda, permitindo a reconstrução semântica de comportamentos na nuvem sem expor dados visuais originais.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

O artigo apresenta o RLSTA, uma abordagem de Aprendizado por Reforço que utiliza âncoras de resposta de turno único para superar a "inércia contextual" em LLMs, permitindo que eles integrem corretamente novas informações e se auto-calibrem em interações multi-turno, superando métodos de ajuste fino tradicionais e demonstrando forte generalização entre domínios.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

O artigo propõe o paradigma CSV (Clustering-Sampling-Voting), um novo framework que reduz a complexidade das invocações de modelos de linguagem grandes (LLMs) para sublinear ao agrupar tuplas semanticamente, amostrar um subconjunto para avaliação e inferir rótulos via estratégias de votação, alcançando uma redução de 1,28 a 355 vezes no número de chamadas ao LLM em comparação com abordagens atuais, sem comprometer a precisão e a pontuação F1.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Este artigo propõe o conceito de Campo Gravitacional de Atenção (AGF) para decodificar e otimizar os mecanismos de posicionamento em Modelos de Linguagem de Grande Escala (LLMs), demonstrando que essa abordagem, alinhada à Lei da Gravitação Universal de Newton, supera os métodos de codificação atuais e oferece novas perspectivas para a interpretabilidade e otimização de modelos.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Este estudo compara sistemas de memória baseados em fatos com modelos de linguagem de longo contexto, demonstrando que, embora os últimos ofereçam maior precisão em tarefas de recuperação factual, a abordagem de memória estruturada se torna mais econômica em cenários de conversas persistentes após um número limitado de interações, fornecendo critérios claros para a seleção de arquiteturas em produção.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Este estudo meta-analítico revela que os modelos de linguagem atuais apresentam limitações significativas na pontuação automática de respostas curtas, incluindo desempenho inferior em arquiteturas decodificadoras, sensibilidade à formulação e viés racial, desafiando a noção de que a dificuldade humana na tarefa correlaciona-se com a eficácia da IA.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

O artigo propõe o GDS, um método inovador que detecta dados de pré-treinamento em Grandes Modelos de Linguagem analisando desvios nos gradientes durante o treinamento, superando as abordagens existentes ao alcançar desempenho superior e maior transferibilidade entre conjuntos de dados.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artigo apresenta a primeira aquisição simultânea de vídeo de ressonância magnética em tempo real, EEG e EMG de superfície para capturar movimentos articulares, atividade muscular e sinais cerebrais durante a produção da fala, introduzindo um pipeline de supressão de artefatos para superar os desafios técnicos dessa abordagem multimodal.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Este artigo demonstra teoricamente que o alinhamento baseado em RLHF é superficial porque os gradientes de treinamento desaparecem após o ponto em que o dano é determinado, e propõe uma nova função objetivo baseada em penalidades de recuperação para garantir sinais de gradiente em todas as posições da sequência.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

O artigo apresenta o SinhaLegal, um corpus de benchmark composto por cerca de 2 milhões de palavras extraídas de leis e projetos de lei em cingalês, que serve como recurso fundamental para tarefas de Processamento de Linguagem Natural, como extração de informações e análise no domínio jurídico.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

O artigo apresenta o HACHIMI, um framework multiagente escalável que gera um corpus de 1 milhão de perfis de alunos sintéticos e controlados, alinhados a teorias educacionais e distribuições demográficas, demonstrando alta fidelidade em constructos cognitivos e motivacionais para simulações sociais e avaliação de LLMs educacionais.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

O artigo apresenta o FireBench, um novo benchmark de código aberto com mais de 2.400 amostras que avalia a capacidade de modelos de linguagem seguirem instruções em cenários empresariais e de API, preenchendo a lacuna deixada por benchmarks existentes focados apenas em assistentes de chat.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Os autores propõem uma intervenção de baixo custo e sem necessidade de re-treinamento para modelos de linguagem difusivos, que modifica sequencialmente amostras intermediárias para repelir redundâncias no espaço de características, resultando em maior diversidade e melhor desempenho Pass@ $k$ em tarefas complexas como geração de código e resolução de problemas matemáticos.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Este estudo avalia a capacidade de modelos de linguagem (LLMs) de capturar a incerteza de especialistas na análise qualitativa de valores humanos, constatando que, embora superem em métricas de conjunto e se aproximem do desempenho humano, eles divergem nos padrões de incerteza e nas classificações exatas, sendo que o modelo Qwen e métodos de ensemble demonstraram o melhor alinhamento com as análises de especialistas.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Este artigo demonstra que as intervenções de alinhamento em modelos de linguagem, embora eficazes em inglês, podem gerar um "efeito colateral de alinhamento" que inverte a segurança e amplifica patologias coletivas em outros idiomas, revelando que a eficácia da segurança é estruturalmente determinada pelo espaço linguístico e cultural e não se transfere universalmente.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Este artigo apresenta um pipeline inovador baseado em LLMs agênticos para a tarefa 10 do SemEval-2026, que utiliza uma arquitetura decoplada com "Dynamic Discriminative Chain-of-Thought" para extração de marcadores e um sistema "Anti-Echo Chamber" para detecção de endosso de teorias da conspiração, alcançando desempenho superior ao baseline e estabelecendo um novo paradigma para NLP interpretável e fundamentado psicolinguisticamente.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Este artigo apresenta o sistema AILS-NTUA para a tarefa DimABSA da SemEval-2026, que combina fine-tuning de codificadores e ajuste de instruções em modelos de linguagem com LoRA para realizar regressão, extração de tripletas e previsão de quadrupletas de sentimento baseado em aspectos de forma eficiente e multilíngue, superando consistentemente as linhas de base.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

← Anterior Próximo →

cs.CL