cs.CL artículos | Gist.Science

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Este artículo presenta un modelo basado en grafos dirigidos y un marco experimental que utiliza textos sintéticos generados por IA para demostrar que la interpretación de visualizaciones de discursos temporales es un desafío complejo para los usuarios, lo que sugiere la necesidad de diseños adaptativos en lugar de enfoques estandarizados.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

El paper presenta GLoRIA, un marco de adaptación eficiente y interpretable para el reconocimiento automático de habla en dialectos que utiliza metadatos geoespaciales para modular actualizaciones de bajo rango, logrando un rendimiento superior al estado del arte con menos del 10% de parámetros actualizados.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

El artículo presenta MUSE, una plataforma de código abierto centrada en la ejecución que evalúa la seguridad multimodal de los modelos de lenguaje mediante la generación automática de ataques, un sistema de juicio dual y la técnica de cambio de modalidad entre turnos, revelando que las estrategias de múltiples turnos pueden eludir las defensas de los modelos incluso cuando estos tienen altas tasas de rechazo en interacciones de un solo turno.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

El artículo presenta CoDAR, un marco de dos etapas que mejora significativamente los modelos de lenguaje de difusión continua al mantener la generación en el espacio de embeddings y utilizar un decodificador autoregresivo contextual para la discretización, logrando una calidad competitiva con los enfoques discretos y ofreciendo un control flexible sobre el equilibrio entre fluidez y diversidad.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Este trabajo presenta VC-STaR, un marco de auto-mejora que aprovecha pares de preguntas visuales contrastivas para mitigar las alucinaciones en los razonamientos de los modelos de lenguaje visuales, generando el conjunto de datos VisCoR-55K que supera a los métodos existentes y a los conjuntos de datos de vanguardia.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

El artículo presenta FlashEvaluator, un marco innovador que mejora la precisión y la eficiencia en tareas de recomendación y procesamiento de lenguaje natural al permitir la comparación cruzada de secuencias y su procesamiento paralelo en una sola pasada, logrando una complejidad sublineal y generando ganancias de ingresos significativas en el sistema de recomendación en línea de Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Este artículo presenta SteerEval, un nuevo marco de evaluación jerárquico que mide la capacidad de control de los modelos de lenguaje grandes en tres niveles de granularidad (intención, expresión e instanciación) dentro de los dominios de características lingüísticas, sentimiento y personalidad, revelando que la eficacia del control disminuye a medida que aumenta el detalle de la especificación.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

El artículo presenta ExpGuard, un modelo de moderación de contenido especializado y su dataset asociado ExpGuardMix, diseñados para proteger a los modelos de lenguaje grandes en los dominios financiero, médico y legal, demostrando una superioridad significativa frente a los métodos actuales en la detección de ataques adversarios específicos de cada sector.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

El artículo presenta GPUTOK, un tokenizador BPE a nivel de bytes acelerado por GPU que, al igualar la calidad de las soluciones de CPU, logra ser hasta 7,6 veces más rápido para secuencias largas, abordando así el cuello de botella que suponen los tokenizadores tradicionales en el procesamiento de contextos extensos para modelos de lenguaje.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Este estudio reproduce y extiende el marco de Modelos de Lenguaje Recursivos (RLM), revelando que, aunque la recursión de profundidad 1 mejora el razonamiento complejo, aumentar la profundidad o aplicarla a tareas simples provoca un "sobre-pensamiento" que degrada el rendimiento y eleva exponencialmente el tiempo de ejecución y los costos.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

StitchCUDA es un marco automatizado de múltiples agentes que utiliza aprendizaje por refuerzo basado en rúbricas para generar programas GPU completos y optimizados, logrando una tasa de éxito cercana al 100% y superando significativamente a los métodos baselines en velocidad y eficiencia.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Este artículo propone y evalúa el "Gobierno de Credibilidad" (CG), un mecanismo que mejora la corrección colectiva en plataformas en línea al asignar influencia dinámica basada en la alineación histórica con la evidencia, superando así las limitaciones de los sistemas de votación tradicionales frente a la desinformación y la incertidumbre.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Este artículo presenta estrategias de decodificación basadas en prompts, incluida una novedosa aproximación dinámica, que permiten a los modelos de lenguaje multimodal generar comentarios de video en tiempo real sincronizados con las pausas naturales sin necesidad de ajuste fino, validando su eficacia mediante un nuevo conjunto de datos multilingüe.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Este artículo presenta M3IRT, un marco basado en la teoría de respuesta al ítem que descompone la capacidad y la dificultad en componentes unimodales y cruzados para identificar y priorizar preguntas genuinamente multimodales, permitiendo así evaluar de manera más fiable y eficiente el razonamiento cruzado de los modelos de lenguaje multimodal.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

El equipo ITLC presenta un método novedoso que reduce los sesgos de contenido en el razonamiento de los modelos de lenguaje mediante la abstracción estructural y el análisis determinista, logrando un rendimiento destacado en la tarea multilingüe SemEval-2026 Task 11 sin necesidad de un ajuste fino complejo.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

El artículo presenta HateMirage, un nuevo dataset de 4.530 comentarios que aborda el discurso de odio sutil y manipulado mediante una anotación multidimensional (objetivo, intención e implicación) para mejorar la explicabilidad y la detección de daños derivados de la desinformación.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

El artículo presenta Graph-GRPO, un marco innovador que estabiliza el aprendizaje de topologías en sistemas multiagente basados en LLMs mediante la optimización de políticas relativas grupales, la cual asigna crédito a nivel de aristas comparando el rendimiento relativo de múltiples grafos de comunicación para mitigar la varianza de gradientes y mejorar la estabilidad del entrenamiento.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

El artículo presenta \textsc{ASEGR}, un marco innovador que mejora la recomendación secuencial mediante la extracción y destilación de atributos sensoriales estructurados de reseñas de productos en representaciones de embebidos, logrando un rendimiento superior y una mayor interpretabilidad al integrar estos significados semánticos en modelos tradicionales.

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Este trabajo presenta DiSE, un método eficiente de autoevaluación para modelos de lenguaje de difusión que cuantifica la confianza mediante la regeneración de secuencias, permitiendo una evaluación de calidad más fiable y un marco de generación de longitud flexible.

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Este artículo presenta KMP-Bench, un benchmark integral para evaluar la inteligencia pedagógica de los modelos de lenguaje en matemáticas K-8 desde dos perspectivas (diálogo y habilidades), revela que aunque los modelos actuales dominan tareas con soluciones verificables, carecen de la aplicación matizada de principios pedagógicos, y demuestra que el ajuste fino con el dataset KMP-Pile mejora significativamente su eficacia como tutores.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

← Anterior Siguiente →