cs.CL artigos | Gist.Science

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Os autores propõem uma arquitetura hierárquica inovadora que integra contextos locais e protótipos semânticos globais para melhorar a rotulagem de papéis retóricos, apresentando também o novo conjunto de dados SCOTUS-Law e demonstrando ganhos significativos em benchmarks jurídicos, médicos e científicos.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Este estudo avalia a eficácia de modelos de linguagem grandes (LLMs) na entrega de Terapia Cognitivo-Comportamental, comparando métodos de geração pura e com recuperação aumentada, e conclui que, embora capazes de simular diálogos terapêuticos, esses modelos apresentam limitações significativas na transmissão de empatia e na manutenção da consistência.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

Este estudo avalia a viabilidade e as limitações de agentes impulsionados por LLMs para auditar padrões obscuros em interfaces de sites de corretores de dados, focando na sua capacidade de navegar autonomamente em fluxos de solicitação de direitos CCPA e identificar práticas manipulativas.

Chen Sun, Yash Vekaria, Rishab Nithyanand2026-03-05🤖 cs.AI

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

Este artigo apresenta o "CzechTopic", um benchmark com documentos históricos tchecos anotados por humanos para avaliar a localização de tópicos, demonstrando que, embora os grandes modelos de linguagem variem significativamente em desempenho, modelos menores baseados em BERT e fine-tuned permanecem competitivos.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

IROSA: Interactive Robot Skill Adaptation using Natural Language

O artigo apresenta o IROSA, um novo framework que utiliza modelos de linguagem pré-treinados para adaptar habilidades de robôs industriais por meio de comandos em linguagem natural, mantendo uma camada de abstração segura que evita o ajuste fino do modelo e a interação direta com o hardware.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Este trabalho propõe uma abordagem neuro-simbólica que utiliza relações semânticas hiperônimo-hiperônimo em inteligência de ameaças cibernéticas para que agentes de IA gerem automaticamente regras de firewall confiáveis, demonstrando superioridade na mitigação de ameaças em comparação com métodos convencionais.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Este trabalho propõe uma avaliação anônima para agentes de role-playing que revela a dependência de modelos de linguagem em nomes de personagens e demonstra que a incorporação de traços de personalidade, inclusive os gerados pelo próprio modelo, melhora significativamente a fidelidade do papel em cenários sem identificação prévia.

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Este artigo avalia o uso de modelos de linguagem como juízes para a avaliação automática de respostas abertas em português médico, demonstrando que a adaptação supervisionada de modelos compactos melhora significativamente a concordância com especialistas e reduz a sensibilidade ao gerador de respostas.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Este artigo propõe uma abordagem de monitoramento baseada em ativações internas que utiliza autoencoders esparsos e classificadores lineares para detectar sinais de "reward hacking" em tempo real durante a geração de texto por modelos de linguagem, oferecendo uma detecção mais precoce e robusta de comportamentos emergentes de desalinhamento do que a avaliação baseada apenas na saída final.

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao2026-03-05🤖 cs.AI

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Este artigo investiga como a integração de Grandes Modelos de Linguagem (LLMs) nos fluxos de trabalho de tradução automática altera a eficácia das previsões de qualidade, demonstrando através de experimentos com um conjunto de dados multi-candidato que, embora os métodos estabelecidos sejam afetados, os desafios na tradução em nível de documento são mitigados.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

O artigo apresenta o FINEST, uma taxonomia de avaliação detalhada para tópicos sensíveis que, ao identificar erros específicos em conteúdo, lógica e adequação, permite um pipeline de melhoria guiado que aumenta significativamente a utilidade e a segurança das respostas de Modelos de Linguagem Grandes, superando abordagens de refinamento sem orientação.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

O estudo BeamPERL demonstra que, embora o aprendizado por reforço com recompensas verificáveis possa melhorar significativamente o desempenho de modelos de linguagem compactos em problemas de mecânica de vigas, ele tende a induzir a memorização de templates procedurais em vez de um raciocínio físico robusto e generalizável, destacando a necessidade de combinar recompensas precisas com estruturas de raciocínio estruturado.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Este artigo apresenta o VietNormalizer, uma biblioteca Python de código aberto e sem dependências externas que oferece uma solução unificada baseada em regras para a normalização de texto vietnamita, convertendo números, datas, moedas, porcentagens, siglas e termos estrangeiros em suas formas faladas para aplicações de TTS e NLP.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Este estudo investiga a competência social de Grandes Modelos de Linguagem (LLMs) na Prova de Crença Falsa, revelando que, embora o aumento de escala e o ajuste fino de instruções influenciem o desempenho, a simples menção de atitudes proposicionais (como "X pensa") desencadeia padrões estereotipados adquiridos durante o pré-treinamento que podem sobrepor a semântica do cenário, sendo possível isolar causalmente esse comportamento através de vetores direcionadores.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Este artigo propõe a Rede de Atribuição de Código Desentrelaçada (DCAN), uma abordagem baseada em aprendizado contrastivo que isola características estilísticas específicas de cada modelo para identificar a origem de código gerado por LLMs, validada por um novo benchmark de grande escala com quatro modelos e quatro linguagens de programação.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Este estudo avalia como onze grandes modelos de linguagem navegam em compromissos envolvendo a Declaração Universal dos Direitos Humanos, revelando vieses sistemáticos que incluem a maior aceitação de limitações a direitos econômicos, sociais e culturais em comparação com direitos políticos e civis, variações significativas entre idiomas (com taxas mais altas de endosso de restrições em chinês e hindi), suscetibilidade a direcionamento via prompts e discrepâncias entre respostas de escala Likert e abertas.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

O artigo demonstra que a melhoria na representação de documentos, e não necessariamente em novos mecanismos de recuperação, é o principal fator por trás dos avanços em benchmarks multilíngues e visualmente ricos, sugerindo a necessidade de avaliações mais decompostas para atribuir corretamente o progresso no campo de RAG.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

O artigo apresenta o Memex, um mecanismo de memória indexada que supera os gargalos de janelas de contexto em agentes LLM de longo prazo ao armazenar interações completas em um banco de dados externo e manter apenas resumos estruturados e índices no contexto ativo, otimizado pelo framework de aprendizado por reforço MemexRL para recuperar evidências precisas sob demanda e melhorar o sucesso em tarefas complexas.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

O artigo propõe um pipeline para extrair hipóteses causais plausíveis de Grandes Modelos de Linguagem (LLMs), mapeando documentos gerados em eventos canônicos e aplicando métodos de descoberta causal para construir grafos candidatos que representam o conhecimento causal implícito nos modelos, sem garantir a causalidade no mundo real.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Este artigo defende que os provedores de modelos de linguagem devem expor interfaces de prompts vetoriais para permitir uma personalização escalável e estável, argumentando que essa abordagem supera as limitações de saturação dos prompts de texto e oferece um mecanismo de controle distinto sem aumentar significativamente os riscos de vazamento de dados.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

← Anterior Próximo →