cs.CL artículos | Gist.Science

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Este artículo propone un marco teórico que vincula la complejidad de Kolmogorov con el aprendizaje profundo mediante objetivos de longitud de descripción asintóticamente óptimos para Transformers, demostrando su existencia teórica y viabilidad práctica a través de un objetivo variacional, aunque se identifican desafíos significativos en la optimización para encontrar soluciones de baja complejidad.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Este trabajo analiza teóricamente y valida empíricamente que, aunque el aprendizaje por refuerzo mejora la planificación de los modelos de lenguaje mediante la exploración frente a las soluciones espurias de la fine-tuning supervisada, el método de gradiente de política sufre de colapso de diversidad mientras que el aprendizaje Q ofrece ventajas superiores en preservación de diversidad y aprendizaje fuera de política, siempre que se diseñen cuidadosamente las recompensas.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudio demuestra que la novedad basada en n-gramas es una métrica insuficiente para evaluar la creatividad textual, ya que ignora la adecuación pragmática y revela que, aunque los modelos de lenguaje avanzados superan al azar en identificar expresiones creativas, aún luchan para detectar aquellas carentes de sentido, a diferencia de los escritores humanos.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

El artículo presenta ManagerBench, un nuevo benchmark que evalúa la capacidad de los modelos de lenguaje grandes para navegar el dilema entre la seguridad y el pragmatismo en escenarios de gestión, revelando que, aunque perciben el daño correctamente, muchos modelos fallan al priorizar la alineación humana sobre los objetivos operativos.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

El artículo presenta AccurateRAG, un marco innovador que optimiza el desarrollo de aplicaciones de preguntas y respuestas mediante generación aumentada por recuperación (RAG) y logra un rendimiento superior al estado del arte en conjuntos de datos de referencia.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

El artículo presenta Cache-to-Cache (C2C), un nuevo paradigma que permite la comunicación semántica directa entre modelos de lenguaje grandes mediante la proyección y fusión de sus cachés KV, logrando mejoras significativas en precisión y velocidad en comparación con la comunicación basada en texto.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

El artículo presenta LaDiR, un marco de razonamiento novedoso que integra modelos de difusión latente con grandes modelos de lenguaje para superar las limitaciones de la generación autoregresiva, permitiendo la refinación iterativa y la exploración paralela de trayectorias de pensamiento diversas y coherentes en tareas de razonamiento matemático y planificación.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Este trabajo presenta Energy Landscape Steering (ELS), un marco de intervención en tiempo de inferencia que utiliza un modelo basado en energía externo para guiar las activaciones internas de los modelos de lenguaje hacia respuestas útiles y seguras, reduciendo significativamente las denegaciones excesivas sin comprometer la seguridad ni requerir ajuste fino.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Este estudio demuestra que los modelos de lenguaje preentrenados, incluso con instrucciones explícitas, tienen dificultades para distinguir entre préstamos lingüísticos y vocabulario nativo en 10 idiomas, lo que revela un sesgo hacia los préstamos y subraya la necesidad de mejorar las herramientas de PLN para la preservación de lenguas minoritarias.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

El artículo presenta STARS, un algoritmo de alineación en tiempo de inferencia que mejora la seguridad y eficiencia de los modelos de lenguaje grandes al reemplazar la segmentación basada en incertidumbre por una verificación síncrona en intervalos fijos, logrando así una detección más robusta de errores y un mejor uso del hardware.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Este artículo propone un marco conceptual que reinterpreta la ambigüedad en las consultas de lenguaje natural para el análisis de datos tabulares como una característica de cooperación entre usuario y sistema, y utiliza este enfoque para criticar las evaluaciones actuales y definir direcciones futuras para el diseño de interfaces más efectivas.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

TransactionGPT

El artículo presenta TransactionGPT, un modelo fundacional basado en una arquitectura novedosa de 3D-Transformer que, al ser entrenado con miles de millones de transacciones reales, supera a los modelos existentes en la detección de anomalías y la generación de transacciones futuras, ofreciendo además mayor precisión y eficiencia que los modelos de lenguaje grandes (LLM) ajustados.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Este artículo demuestra que la ingeniería de activaciones dirigida, mediante la identificación de componentes causales y la aplicación de vectores de expresión emocional derivados de pares de texto contrastantes, permite a los modelos LLaMA 3.1-8B generar respuestas de negociación con matices emocionales más humanos, mayor sentimiento positivo y un mayor compromiso personal.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Este trabajo propone un marco de debate fino y consciente de la confianza (CFD) que utiliza modelos de lenguaje de código abierto para enriquecer automáticamente datos con indicadores de salud mental y seguridad en línea, logrando mejoras significativas en tareas posteriores al incorporar transcripciones de debate en dos nuevos conjuntos de datos anotados por expertos.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Este artículo presenta GUMBridge, un nuevo corpus en inglés que abarca 16 géneros diversos y ofrece anotaciones detalladas sobre variedades de anáfora de puente, demostrando mediante evaluaciones que tanto la resolución de este fenómeno como su clasificación de subtipos siguen siendo tareas desafiantes incluso para los modelos de lenguaje actuales.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Este trabajo introduce un mecanismo de guiado de activaciones para modelos de difusión enmascarada que, mediante la extracción de una dirección unidimensional de bajo costo, permite un control eficiente y transferible del comportamiento del modelo (como la negativa segura) durante la inferencia, superando a los métodos basados en optimización y aprovechando características específicas de la arquitectura de difusión que no están disponibles en los modelos autoregresivos.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

El artículo "Entropy Sentinel" demuestra que los perfiles de entropía de salida generados durante la inferencia pueden utilizarse para estimar con precisión el rendimiento de modelos de lenguaje en dominios específicos y priorizar la adquisición de datos para mejorar su desempeño en tareas de razonamiento STEM.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

El artículo introduce el "arraigo contextual", un fenómeno en el que la presencia de intentos fallidos en el contexto de los modelos de lenguaje grandes sesga sus generaciones posteriores hacia errores estructuralmente similares, provocando una caída del 10-20% en el rendimiento y llevando a la auto-deterioración en procesos de auto-mejora iterativa que las estrategias actuales de mitigación no logran resolver completamente.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Este artículo presenta PACIFIC, un marco y dataset que demuestran que alinear las preferencias de los usuarios con sus rasgos de personalidad inferidos (Big Five) mejora significativamente la precisión de las respuestas personalizadas de los modelos de lenguaje, elevando la exactitud del 29,25% al 76%.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Steer2Edit es un marco de edición de pesos sin entrenamiento que transforma las señales de dirección de activación en actualizaciones interpretables a nivel de componentes, logrando mejores compensaciones entre atributos y utilidad en tareas de seguridad, veracidad y razonamiento en comparación con los métodos de intervención tradicionales.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

← Anterior Siguiente →