Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Os autores propõem uma arquitetura hierárquica inovadora que integra contextos locais e protótipos semânticos globais para melhorar a rotulagem de papéis retóricos, apresentando também o novo conjunto de dados SCOTUS-Law e demonstrando ganhos significativos em benchmarks jurídicos, médicos e científicos.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Este estudo avalia a eficácia de modelos de linguagem grandes (LLMs) na entrega de Terapia Cognitivo-Comportamental, comparando métodos de geração pura e com recuperação aumentada, e conclui que, embora capazes de simular diálogos terapêuticos, esses modelos apresentam limitações significativas na transmissão de empatia e na manutenção da consistência.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Este trabalho propõe uma abordagem neuro-simbólica que utiliza relações semânticas hiperônimo-hiperônimo em inteligência de ameaças cibernéticas para que agentes de IA gerem automaticamente regras de firewall confiáveis, demonstrando superioridade na mitigação de ameaças em comparação com métodos convencionais.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Este artigo propõe uma abordagem de monitoramento baseada em ativações internas que utiliza autoencoders esparsos e classificadores lineares para detectar sinais de "reward hacking" em tempo real durante a geração de texto por modelos de linguagem, oferecendo uma detecção mais precoce e robusta de comportamentos emergentes de desalinhamento do que a avaliação baseada apenas na saída final.

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao2026-03-05🤖 cs.AI

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Este artigo investiga como a integração de Grandes Modelos de Linguagem (LLMs) nos fluxos de trabalho de tradução automática altera a eficácia das previsões de qualidade, demonstrando através de experimentos com um conjunto de dados multi-candidato que, embora os métodos estabelecidos sejam afetados, os desafios na tradução em nível de documento são mitigados.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

O artigo apresenta o FINEST, uma taxonomia de avaliação detalhada para tópicos sensíveis que, ao identificar erros específicos em conteúdo, lógica e adequação, permite um pipeline de melhoria guiado que aumenta significativamente a utilidade e a segurança das respostas de Modelos de Linguagem Grandes, superando abordagens de refinamento sem orientação.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

O estudo BeamPERL demonstra que, embora o aprendizado por reforço com recompensas verificáveis possa melhorar significativamente o desempenho de modelos de linguagem compactos em problemas de mecânica de vigas, ele tende a induzir a memorização de templates procedurais em vez de um raciocínio físico robusto e generalizável, destacando a necessidade de combinar recompensas precisas com estruturas de raciocínio estruturado.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Este artigo apresenta o VietNormalizer, uma biblioteca Python de código aberto e sem dependências externas que oferece uma solução unificada baseada em regras para a normalização de texto vietnamita, convertendo números, datas, moedas, porcentagens, siglas e termos estrangeiros em suas formas faladas para aplicações de TTS e NLP.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Este estudo investiga a competência social de Grandes Modelos de Linguagem (LLMs) na Prova de Crença Falsa, revelando que, embora o aumento de escala e o ajuste fino de instruções influenciem o desempenho, a simples menção de atitudes proposicionais (como "X pensa") desencadeia padrões estereotipados adquiridos durante o pré-treinamento que podem sobrepor a semântica do cenário, sendo possível isolar causalmente esse comportamento através de vetores direcionadores.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Este estudo avalia como onze grandes modelos de linguagem navegam em compromissos envolvendo a Declaração Universal dos Direitos Humanos, revelando vieses sistemáticos que incluem a maior aceitação de limitações a direitos econômicos, sociais e culturais em comparação com direitos políticos e civis, variações significativas entre idiomas (com taxas mais altas de endosso de restrições em chinês e hindi), suscetibilidade a direcionamento via prompts e discrepâncias entre respostas de escala Likert e abertas.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

O artigo demonstra que a melhoria na representação de documentos, e não necessariamente em novos mecanismos de recuperação, é o principal fator por trás dos avanços em benchmarks multilíngues e visualmente ricos, sugerindo a necessidade de avaliações mais decompostas para atribuir corretamente o progresso no campo de RAG.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

O artigo apresenta o Memex, um mecanismo de memória indexada que supera os gargalos de janelas de contexto em agentes LLM de longo prazo ao armazenar interações completas em um banco de dados externo e manter apenas resumos estruturados e índices no contexto ativo, otimizado pelo framework de aprendizado por reforço MemexRL para recuperar evidências precisas sob demanda e melhorar o sucesso em tarefas complexas.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Este artigo defende que os provedores de modelos de linguagem devem expor interfaces de prompts vetoriais para permitir uma personalização escalável e estável, argumentando que essa abordagem supera as limitações de saturação dos prompts de texto e oferece um mecanismo de controle distinto sem aumentar significativamente os riscos de vazamento de dados.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed 💬 cs.CL