Benchmarking Motivational Interviewing Competence of Large Language Models

Este estudio demuestra que los modelos de lenguaje grandes, tanto propietarios como de código abierto, alcanzan una competencia en la entrevista motivacional comparable o superior a la de los terapeutas humanos en contextos clínicos reales, logrando ser indistinguibles de ellos para psiquiatras expertos y presentándose como una solución viable para expandir el asesoramiento en entornos con recursos limitados.

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

Este artículo presenta CzechTopic, un nuevo conjunto de datos y marco de evaluación para la localización de temas en documentos históricos checos, que demuestra cómo los modelos de lenguaje grandes y las arquitecturas BERT optimizadas pueden identificar eficazmente conceptos definidos por humanos en textos históricos, superando en algunos casos el acuerdo interanotador humano.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Este trabajo propone un sistema neuro-simbólico híbrido que utiliza relaciones semánticas hiperónimo-hipónimo para extraer inteligencia de amenazas cibernéticas y generar automáticamente reglas de firewall mediante agentes de IA y sistemas expertos, demostrando una mayor eficacia en la mitigación de amenazas en comparación con enfoques basales.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Este estudio demuestra que, aunque los modelos de lenguaje grandes pueden evaluar respuestas médicas abiertas en francés, su precisión depende del generador de la respuesta y se optimiza significativamente mediante la adaptación supervisada de modelos compactos, ofreciendo así una solución escalable para entornos médicos con recursos limitados.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

El artículo presenta FINEST, una taxonomía de evaluación detallada para temas sensibles que, al desglosar la utilidad y la inocuidad en categorías de contenido, lógica y adecuación, permite mejorar significativamente las respuestas de los modelos de lenguaje mediante un proceso de refinamiento guiado por puntuaciones y justificaciones específicas.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

El estudio BeamPERL demuestra que, aunque el aprendizaje por refuerzo con recompensas verificables mejora significativamente el rendimiento de modelos de lenguaje compactos en problemas de mecánica de vigas, induce la memorización de plantillas procedimentales en lugar de un razonamiento físico robusto, lo que limita la generalización ante cambios topológicos y sugiere la necesidad de combinar estas recompensas con andamiajes de razonamiento estructurado.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

El artículo presenta VietNormalizer, una biblioteca Python de código abierto y sin dependencias que normaliza texto vietnamita mediante un pipeline basado en reglas para convertir números, fechas, monedas, acrónimos y préstamos lingüísticos en formas habladas, optimizando así su uso en aplicaciones de síntesis de voz y procesamiento del lenguaje natural.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Este estudio demuestra que, aunque el escalado de modelos mejora el rendimiento en la Prueba de Falsa Creencia, la aparición de patrones estereotípicos vinculados al vocabulario de estados mentales durante el pre-entrenamiento y la capacidad de aislar causalmente un "vector de pensamiento" revelan limitaciones fundamentales en la competencia social de los modelos de lenguaje.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Este estudio evalúa cómo once grandes modelos de lenguaje navegan las compensaciones relacionadas con la Declaración Universal de los Derechos Humanos en múltiples idiomas, revelando sesgos sistemáticos que incluyen una mayor disposición a limitar derechos económicos y sociales, variaciones lingüísticas significativas y una alta susceptibilidad a la manipulación mediante instrucciones.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

El artículo presenta Memex, un mecanismo de memoria indexada optimizado mediante aprendizaje por refuerzo (MemexRL) que permite a los agentes LLM realizar tareas de largo alcance manteniendo un contexto de trabajo compacto y recuperando evidencia completa bajo demanda, superando así las limitaciones de pérdida de información inherentes a los enfoques de resumen tradicionales.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG