MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

El artículo presenta MedXIAOHE, un modelo fundacional médico de visión y lenguaje que logra un rendimiento superior al estado del arte mediante un marco de preentrenamiento continuo consciente de entidades, entrenamiento con aprendizaje por refuerzo y generación de informes con baja alucinación para mejorar el razonamiento diagnóstico y la fiabilidad en aplicaciones clínicas reales.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Este artículo presenta CFE-Bench, un nuevo benchmark multimodal de exámenes universitarios reales en más de 20 áreas STEM que revela que, aunque los modelos de vanguardia como Gemini-3.1-pro-preview alcanzan un 59,69% de precisión, siguen teniendo dificultades para mantener estados intermedios correctos en soluciones de múltiples pasos y tienden a generar razonamientos menos eficientes que las soluciones de los instructores.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Este trabajo presenta "Super Research", una nueva tarea y un benchmark de 300 preguntas complejas diseñado para evaluar la capacidad de los modelos de lenguaje grandes para realizar investigaciones autónomas profundas y amplias mediante descomposición estructurada, recuperación masiva y síntesis de evidencia, con el fin de servir como una prueba de estrés crítica para medir la competencia general en investigación.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Este trabajo presenta uCDCR, un conjunto de datos unificado que consolida y estandariza diversos corpus de resolución de coreferencia cruzada de documentos en inglés para entidades y eventos, permitiendo un análisis sistemático que demuestra la necesidad de abordar ambos tipos de coreferencia y mejorar la generalización de los modelos.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Este trabajo presenta ClinConsensus, un nuevo benchmark en chino basado en el consenso de expertos clínicos que evalúa modelos de lenguaje grandes en escenarios médicos abiertos y complejos mediante un sistema de puntuación de consistencia y un marco de doble juez, revelando brechas significativas en la capacidad de razonamiento y planificación de tratamientos de los modelos actuales.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Este artículo presenta un modelo de sustitución que preserva simultáneamente la distribución de frecuencias de los símbolos y la estructura de correlaciones de largo alcance en secuencias simbólicas como el lenguaje y el ADN, generando nuevas secuencias que mantienen estas propiedades estadísticas clave mientras aleatorizan las dependencias de corto alcance.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

El artículo presenta HELIOS, un modelo que supera las limitaciones de las fusiones temprana y tardía en la recuperación de tablas y texto mediante la combinación de recuperación de subgrafos bipartitos basados en aristas, expansión dinámica de nodos relevantes y refinamiento lógico con LLMs, logrando mejoras significativas en el rendimiento en la tarea de respuesta a preguntas abiertas.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Este estudio demuestra que el modelo de traducción neuronal NLLB-200 no solo agrupa idiomas por similitud superficial, sino que ha internalizado implícitamente la estructura genealógica de las lenguas y asociaciones conceptuales universales, revelando una geometría de representaciones que refleja un almacén conceptual neutral al idioma análogo a la organización cognitiva humana.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Este trabajo presenta un marco teórico y empírico que caracteriza la memorización en modelos de lenguaje difusivos, demostrando que su probabilidad de extracción exacta aumenta con la resolución de muestreo y que, bajo evaluaciones alineadas, exhiben una fuga de información de identificación personal significativamente menor en comparación con los modelos autoregresivos.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL