cs.CL artículos | Gist.Science

Benchmarking Motivational Interviewing Competence of Large Language Models

Este estudio demuestra que los modelos de lenguaje grandes, tanto propietarios como de código abierto, alcanzan una competencia en la entrevista motivacional comparable o superior a la de los terapeutas humanos en contextos clínicos reales, logrando ser indistinguibles de ellos para psiquiatras expertos y presentándose como una solución viable para expandir el asesoramiento en entornos con recursos limitados.

Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla + 3 more2026-03-05💬 cs.CL

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Este trabajo propone un enfoque jerárquico que combina contextos locales con prototipos semánticos globales para mejorar el etiquetado de roles retóricos, introduciendo además el nuevo dataset SCOTUS-Law y demostrando mejoras significativas en dominios legales, médicos y científicos.

Anas Belfathi, Nicolas Hernandez, Laura Monceaux + 4 more2026-03-05💬 cs.CL

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Este estudio evalúa la capacidad de los modelos de lenguaje grandes para emular la terapia cognitivo-conductual profesional, concluyendo que, aunque pueden generar diálogos similares, presentan limitaciones significativas en la empatía y la coherencia terapéutica.

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando + 1 more2026-03-05💬 cs.CL

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

Este estudio evalúa la viabilidad y las limitaciones de los agentes impulsados por LLM para auditar patrones oscuros en los flujos de trabajo de solicitudes de derechos de datos, demostrando su capacidad y sus fallos al analizar 456 sitios web de corredores de datos en el contexto de la CCPA.

Chen Sun, Yash Vekaria, Rishab Nithyanand2026-03-05🤖 cs.AI

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

Este artículo presenta CzechTopic, un nuevo conjunto de datos y marco de evaluación para la localización de temas en documentos históricos checos, que demuestra cómo los modelos de lenguaje grandes y las arquitecturas BERT optimizadas pueden identificar eficazmente conceptos definidos por humanos en textos históricos, superando en algunos casos el acuerdo interanotador humano.

Martin Kostelník, Michal Hradiš, Martin Dočekal2026-03-05🤖 cs.AI

IROSA: Interactive Robot Skill Adaptation using Natural Language

El artículo presenta IROSA, un marco innovador que combina modelos de lenguaje fundacionales con aprendizaje por imitación para permitir la adaptación de habilidades robóticas mediante comandos de lenguaje natural, utilizando una arquitectura basada en herramientas que garantiza seguridad y transparencia sin necesidad de ajuste fino del modelo.

Markus Knauer, Samuel Bustamante, Thomas Eiband + 3 more2026-03-05🤖 cs.AI

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Este trabajo propone un sistema neuro-simbólico híbrido que utiliza relaciones semánticas hiperónimo-hipónimo para extraer inteligencia de amenazas cibernéticas y generar automáticamente reglas de firewall mediante agentes de IA y sistemas expertos, demostrando una mayor eficacia en la mitigación de amenazas en comparación con enfoques basales.

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero + 1 more2026-03-05🤖 cs.AI

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Este trabajo propone una evaluación anónima para agentes de rol que revela la dependencia de los modelos en nombres famosos, demostrando además que la incorporación de rasgos de personalidad auto-generados mejora significativamente la fidelidad del personaje en ausencia de dicha información.

Ji-Lun Peng, Yun-Nung Chen2026-03-05🤖 cs.AI

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Este estudio demuestra que, aunque los modelos de lenguaje grandes pueden evaluar respuestas médicas abiertas en francés, su precisión depende del generador de la respuesta y se optimiza significativamente mediante la adaptación supervisada de modelos compactos, ofreciendo así una solución escalable para entornos médicos con recursos limitados.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils + 2 more2026-03-05💬 cs.CL

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Este trabajo propone un método de monitoreo basado en las activaciones internas de los modelos de lenguaje para detectar señales tempranas de manipulación de recompensas durante la generación, demostrando que estos patrones internos son más fiables y anticipados que la evaluación basada únicamente en el texto final.

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao2026-03-05🤖 cs.AI

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Este artículo evalúa cómo la integración de modelos de lenguaje grandes (LLM) en flujos de trabajo de traducción automática afecta la fiabilidad de los métodos existentes de predicción de calidad, mediante experimentos retrospectivos en un conjunto de datos único con múltiples candidatos y una referencia de edición humana.

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

El artículo presenta FINEST, una taxonomía de evaluación detallada para temas sensibles que, al desglosar la utilidad y la inocuidad en categorías de contenido, lógica y adecuación, permite mejorar significativamente las respuestas de los modelos de lenguaje mediante un proceso de refinamiento guiado por puntuaciones y justificaciones específicas.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

El estudio BeamPERL demuestra que, aunque el aprendizaje por refuerzo con recompensas verificables mejora significativamente el rendimiento de modelos de lenguaje compactos en problemas de mecánica de vigas, induce la memorización de plantillas procedimentales en lugar de un razonamiento físico robusto, lo que limita la generalización ante cambios topológicos y sugiere la necesidad de combinar estas recompensas con andamiajes de razonamiento estructurado.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

El artículo presenta VietNormalizer, una biblioteca Python de código abierto y sin dependencias que normaliza texto vietnamita mediante un pipeline basado en reglas para convertir números, fechas, monedas, acrónimos y préstamos lingüísticos en formas habladas, optimizando así su uso en aplicaciones de síntesis de voz y procesamiento del lenguaje natural.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Este estudio demuestra que, aunque el escalado de modelos mejora el rendimiento en la Prueba de Falsa Creencia, la aparición de patrones estereotípicos vinculados al vocabulario de estados mentales durante el pre-entrenamiento y la capacidad de aislar causalmente un "vector de pensamiento" revelan limitaciones fundamentales en la competencia social de los modelos de lenguaje.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Este artículo presenta DCAN, un enfoque basado en aprendizaje contrastivo que disocia la semántica del código de sus características estilísticas específicas del modelo para lograr una atribución precisa de la fuente de código generado por LLM, validado mediante un nuevo conjunto de datos a gran escala.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Este estudio evalúa cómo once grandes modelos de lenguaje navegan las compensaciones relacionadas con la Declaración Universal de los Derechos Humanos en múltiples idiomas, revelando sesgos sistemáticos que incluyen una mayor disposición a limitar derechos económicos y sociales, variaciones lingüísticas significativas y una alta susceptibilidad a la manipulación mediante instrucciones.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

El estudio demuestra que las mejoras en los benchmarks de RAG multilingüe y visual se deben principalmente a una mejor representación del documento y no a sistemas de recuperación avanzados, ya que BM25 puede recuperar esas brechas cuando se optimiza la transcripción y el preprocesamiento.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

El artículo presenta Memex, un mecanismo de memoria indexada optimizado mediante aprendizaje por refuerzo (MemexRL) que permite a los agentes LLM realizar tareas de largo alcance manteniendo un contexto de trabajo compacto y recuperando evidencia completa bajo demanda, superando así las limitaciones de pérdida de información inherentes a los enfoques de resumen tradicionales.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

Este artículo propone un pipeline para extraer relaciones causales de los modelos de lenguaje grande mediante la generación de documentos, la extracción y agrupación de eventos, y la aplicación de métodos de descubrimiento causal para presentar un conjunto de hipótesis causales plausibles que el modelo puede asumir.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

← Anterior Siguiente →