A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Este artículo presenta un modelo basado en grafos dirigidos y un marco experimental que utiliza textos sintéticos generados por IA para demostrar que la interpretación de visualizaciones de discursos temporales es un desafío complejo para los usuarios, lo que sugiere la necesidad de diseños adaptativos en lugar de enfoques estandarizados.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

El artículo presenta MUSE, una plataforma de código abierto centrada en la ejecución que evalúa la seguridad multimodal de los modelos de lenguaje mediante la generación automática de ataques, un sistema de juicio dual y la técnica de cambio de modalidad entre turnos, revelando que las estrategias de múltiples turnos pueden eludir las defensas de los modelos incluso cuando estos tienen altas tasas de rechazo en interacciones de un solo turno.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

El artículo presenta CoDAR, un marco de dos etapas que mejora significativamente los modelos de lenguaje de difusión continua al mantener la generación en el espacio de embeddings y utilizar un decodificador autoregresivo contextual para la discretización, logrando una calidad competitiva con los enfoques discretos y ofreciendo un control flexible sobre el equilibrio entre fluidez y diversidad.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

El artículo presenta FlashEvaluator, un marco innovador que mejora la precisión y la eficiencia en tareas de recomendación y procesamiento de lenguaje natural al permitir la comparación cruzada de secuencias y su procesamiento paralelo en una sola pasada, logrando una complejidad sublineal y generando ganancias de ingresos significativas en el sistema de recomendación en línea de Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Este artículo presenta SteerEval, un nuevo marco de evaluación jerárquico que mide la capacidad de control de los modelos de lenguaje grandes en tres niveles de granularidad (intención, expresión e instanciación) dentro de los dominios de características lingüísticas, sentimiento y personalidad, revelando que la eficacia del control disminuye a medida que aumenta el detalle de la especificación.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Este artículo propone y evalúa el "Gobierno de Credibilidad" (CG), un mecanismo que mejora la corrección colectiva en plataformas en línea al asignar influencia dinámica basada en la alineación histórica con la evidencia, superando así las limitaciones de los sistemas de votación tradicionales frente a la desinformación y la incertidumbre.

Wanying He, Yanxi Lin, Ziheng Zhou + 5 more2026-03-04💬 cs.CL

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Este artículo presenta estrategias de decodificación basadas en prompts, incluida una novedosa aproximación dinámica, que permiten a los modelos de lenguaje multimodal generar comentarios de video en tiempo real sincronizados con las pausas naturales sin necesidad de ajuste fino, validando su eficacia mediante un nuevo conjunto de datos multilingüe.

Anum Afzal, Yuki Saito, Hiroya Takamura + 5 more2026-03-04💬 cs.CL

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Este artículo presenta M3IRT, un marco basado en la teoría de respuesta al ítem que descompone la capacidad y la dificultad en componentes unimodales y cruzados para identificar y priorizar preguntas genuinamente multimodales, permitiendo así evaluar de manera más fiable y eficiente el razonamiento cruzado de los modelos de lenguaje multimodal.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

El artículo presenta Graph-GRPO, un marco innovador que estabiliza el aprendizaje de topologías en sistemas multiagente basados en LLMs mediante la optimización de políticas relativas grupales, la cual asigna crédito a nivel de aristas comparando el rendimiento relativo de múltiples grafos de comunicación para mitigar la varianza de gradientes y mejorar la estabilidad del entrenamiento.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Este artículo presenta KMP-Bench, un benchmark integral para evaluar la inteligencia pedagógica de los modelos de lenguaje en matemáticas K-8 desde dos perspectivas (diálogo y habilidades), revela que aunque los modelos actuales dominan tareas con soluciones verificables, carecen de la aplicación matizada de principios pedagógicos, y demuestra que el ajuste fino con el dataset KMP-Pile mejora significativamente su eficacia como tutores.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL