cs.CL artículos | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

El artículo presenta MuRating, un marco escalable que transfiere señales de calidad de datos del inglés a un evaluador multilingüe único para seleccionar conjuntos de datos equilibrados que mejoran significativamente el rendimiento de modelos de lenguaje grandes en tareas de conocimiento y evaluación multilingüe.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

El artículo presenta Eka-Eval, un marco de evaluación de código abierto y modular diseñado para ofrecer una cobertura integral y accesible de más de 55 benchmarks multilingües, optimizado específicamente para modelos de lenguaje grandes en contextos de recursos lingüísticos limitados.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabajo presenta TreeBench, un nuevo benchmark diseñado para evaluar el razonamiento visual fundamentado mediante evidencia trazable, y propone TreeVGR, un paradigma de entrenamiento que mejora significativamente el rendimiento de los modelos en tareas de localización y razonamiento complejo.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

El artículo presenta Vevo2, un marco unificado y controlable para la generación de voz hablada y cantada que supera la escasez de datos mediante tokenizadores de audio avanzados y estrategias de aprendizaje conjunto, logrando una generalización superior en tareas de síntesis, conversión y edición.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabajo demuestra que la cuantización en grandes modelos de lenguaje tiene un impacto matizado en los sesgos, reduciendo la toxicidad pero aumentando ligeramente los estereotipos y la injusticia en tareas generativas, lo que subraya la necesidad de equilibrar la eficiencia con las consideraciones éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabajo propone un modelo de alineación basado en transporte óptimo no balanceado que aborda las asimetrías estructurales y el desajuste distribucional entre representaciones acústicas y lingüísticas para mejorar la transferencia de conocimiento en sistemas de reconocimiento automático de voz.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artículo presenta TSPC, una arquitectura de dos etapas centrada en fonemas que utiliza un conjunto de fonomas vietnamitas extendido como representación intermedia para mejorar el reconocimiento de habla con cambio de código entre vietnamita e inglés, logrando una tasa de error de palabra significativamente menor que los modelos existentes incluso con recursos computacionales limitados.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Este estudio demuestra que el análisis longitudinal de los registros de redes sociales puede capturar cambios lingüísticos y conductuales asociados al trastorno bipolar, revelando alteraciones en el momento del diagnóstico y fluctuaciones estacionales en los síntomas que complementan la investigación psiquiátrica tradicional.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

El artículo presenta Llama-Mimi, un modelo de lenguaje de voz que simplifica la arquitectura al aplanar los tokens multinivel de un codec de audio RVQ en una única secuencia para modelarlos con un Transformer, logrando un rendimiento superior en consistencia acústica y en la mayoría de las tareas frente a modelos jerárquicos anteriores.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

El estudio revela que los modelos de lenguaje en SpeechLLMs presentan fallos de robustez estructural al procesar el habla conversacional, mostrando una tendencia a la sobreeliminación de contenido fluido y una generalización limitada tras el ajuste fino, lo que demuestra que la capacidad de manejar el habla depende de objetivos de entrenamiento específicos.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

El artículo presenta BeyondBench, un marco de evaluación que genera problemas algorítmicos dinámicos e inmensamente variados para medir de forma resistente a la contaminación la capacidad de razonamiento real de los modelos de lenguaje, revelando deficiencias significativas en tareas complejas y la dependencia crítica del uso de herramientas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este estudio presenta un método innovador para el preentrenamiento estable y preciso de modelos de lenguaje grandes en formato NVFP4, que mediante transformaciones de Hadamard aleatorias, esquemas de cuantización bidimensionales y redondeo estocástico, logra un rendimiento comparable al de la precisión FP8 en un modelo de 12 mil millones de parámetros entrenado con 10 billones de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

El artículo presenta PrefDisco, un marco de evaluación que transforma las pruebas estáticas en tareas interactivas para medir la capacidad de los modelos de lenguaje de realizar un "razonamiento personalizado" proactivo mediante la identificación de preferencias del usuario y la adaptación de sus respuestas, demostrando que esta habilidad no surge naturalmente y es crucial para aplicaciones en educación, salud y tecnología.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

El artículo presenta Graph2Eval, un marco impulsado por grafos de conocimiento que genera automáticamente tareas multimodales escalables y semánticamente consistentes para evaluar agentes, superando las limitaciones de los conjuntos de datos estáticos y los problemas de alucinación de los LLM mediante un proceso de muestreo y filtrado riguroso.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

El artículo propone GMT (Graph-as-Memory Tuning), un nuevo paradigma que supera las limitaciones de la concatenación de prefijos al representar la estructura local de los grafos de conocimiento como memoria explícita e integrarla en modelos de lenguaje grandes mediante una atención cruzada token a token, logrando así una recuperación de evidencia más precisa y un razonamiento superior para la completación de grafos de conocimiento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Este artículo presenta AuthenHallu, el primer benchmark para la detección de alucinaciones en modelos de lenguaje grande (LLM) construido exclusivamente a partir de interacciones auténticas entre humanos y LLM, revelando que estas alucinaciones ocurren en el 31,4% de las respuestas y alcanzando un 60,0% en dominios desafiantes como las matemáticas, mientras que se demuestra que los LLMs estándar aún no son suficientes para detectarlas en escenarios reales.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

El artículo demuestra que el ajuste fino en dominios estrechos deja trazas legibles en las activaciones de los modelos de lenguaje, las cuales pueden ser explotadas para inferir el dominio de entrenamiento y revelan riesgos de seguridad, al tiempo que advierte que estos modelos sesgados no son representativos para estudiar el ajuste fino más generalizado.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

El paper presenta Grasp Any Region (GAR), un modelo que mejora la comprensión visual a nivel de región en MLLMs al integrar contextos globales y razonamiento composicional entre múltiples regiones, superando a modelos existentes en benchmarks especializados como GAR-Bench y demostrando capacidades transferibles al video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

El artículo presenta EchoMind, el primer benchmark multi-nivel interconectado diseñado para evaluar la capacidad de los Modelos de Lenguaje de Voz (SLM) para integrar pistas vocales no léxicas con el contenido lingüístico y generar respuestas empáticas, revelando que incluso los modelos más avanzados actuales tienen dificultades para percibir y utilizar eficazmente estas señales vocales expresivas.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Este trabajo presenta el Open Korean Historical Corpus, un conjunto de datos masivo y de dominio público que abarca 1.300 años y múltiples sistemas de escritura, permitiendo por primera vez un análisis cuantitativo de la evolución lingüística coreana y sirviendo como recurso fundamental para el entrenamiento de modelos de lenguaje.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Anterior Siguiente →