TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este estudio presenta un método innovador para el preentrenamiento estable y preciso de modelos de lenguaje grandes en formato NVFP4, que mediante transformaciones de Hadamard aleatorias, esquemas de cuantización bidimensionales y redondeo estocástico, logra un rendimiento comparable al de la precisión FP8 en un modelo de 12 mil millones de parámetros entrenado con 10 billones de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

El artículo presenta PrefDisco, un marco de evaluación que transforma las pruebas estáticas en tareas interactivas para medir la capacidad de los modelos de lenguaje de realizar un "razonamiento personalizado" proactivo mediante la identificación de preferencias del usuario y la adaptación de sus respuestas, demostrando que esta habilidad no surge naturalmente y es crucial para aplicaciones en educación, salud y tecnología.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

El artículo propone GMT (Graph-as-Memory Tuning), un nuevo paradigma que supera las limitaciones de la concatenación de prefijos al representar la estructura local de los grafos de conocimiento como memoria explícita e integrarla en modelos de lenguaje grandes mediante una atención cruzada token a token, logrando así una recuperación de evidencia más precisa y un razonamiento superior para la completación de grafos de conocimiento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Este artículo presenta AuthenHallu, el primer benchmark para la detección de alucinaciones en modelos de lenguaje grande (LLM) construido exclusivamente a partir de interacciones auténticas entre humanos y LLM, revelando que estas alucinaciones ocurren en el 31,4% de las respuestas y alcanzando un 60,0% en dominios desafiantes como las matemáticas, mientras que se demuestra que los LLMs estándar aún no son suficientes para detectarlas en escenarios reales.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

El artículo demuestra que el ajuste fino en dominios estrechos deja trazas legibles en las activaciones de los modelos de lenguaje, las cuales pueden ser explotadas para inferir el dominio de entrenamiento y revelan riesgos de seguridad, al tiempo que advierte que estos modelos sesgados no son representativos para estudiar el ajuste fino más generalizado.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

El artículo presenta EchoMind, el primer benchmark multi-nivel interconectado diseñado para evaluar la capacidad de los Modelos de Lenguaje de Voz (SLM) para integrar pistas vocales no léxicas con el contenido lingüístico y generar respuestas empáticas, revelando que incluso los modelos más avanzados actuales tienen dificultades para percibir y utilizar eficazmente estas señales vocales expresivas.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs