cs.CL artículos | Gist.Science

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

El artículo presenta MedXIAOHE, un modelo fundacional médico de visión y lenguaje que logra un rendimiento superior al estado del arte mediante un marco de preentrenamiento continuo consciente de entidades, entrenamiento con aprendizaje por refuerzo y generación de informes con baja alucinación para mejorar el razonamiento diagnóstico y la fiabilidad en aplicaciones clínicas reales.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Este estudio a gran escala demuestra que los modelos de lenguaje grandes (LLMs) mejoran significativamente el pronóstico de series temporales, especialmente en la generalización entre dominios, desafiando las evaluaciones previas que cuestionaban su utilidad y estableciendo condiciones claras para su diseño efectivo.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Este trabajo propone un método sin entrenamiento que reinterpreta los clasificadores softmax de los modelos de lenguaje grandes como modelos basados en energía para detectar alucinaciones y errores fácticos mediante métricas de "energía derramada" y "energía marginalizada" derivadas directamente de los logits de salida.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Este artículo presenta CFE-Bench, un nuevo benchmark multimodal de exámenes universitarios reales en más de 20 áreas STEM que revela que, aunque los modelos de vanguardia como Gemini-3.1-pro-preview alcanzan un 59,69% de precisión, siguen teniendo dificultades para mantener estados intermedios correctos en soluciones de múltiples pasos y tienden a generar razonamientos menos eficientes que las soluciones de los instructores.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

El artículo presenta RuCL, un marco de aprendizaje curricular estratificado basado en rúbricas que mejora el razonamiento de los modelos de lenguaje multimodal grandes mediante el diseño dinámico de recompensas, logrando un rendimiento superior al estado del arte en diversas pruebas de razonamiento visual.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Este artículo presenta un marco de traducción automática guiada por voz que integra audio y texto en Modelos de Lenguaje Multimodal mediante un mecanismo de autoevolución, logrando resultados de vanguardia en benchmarks multilingües y demostrando que la voz sintética es una alternativa escalable y efectiva a los pares imagen-texto.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

DeepXiv-SDK es una interfaz de datos agénica de tres capas que transforma la literatura científica no estructurada en formatos normalizados y ofrece herramientas accesibles para que los agentes de IA accedan y utilicen eficientemente el corpus de ArXiv y otros repositorios de acceso abierto.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Este trabajo presenta "Super Research", una nueva tarea y un benchmark de 300 preguntas complejas diseñado para evaluar la capacidad de los modelos de lenguaje grandes para realizar investigaciones autónomas profundas y amplias mediante descomposición estructurada, recuperación masiva y síntesis de evidencia, con el fin de servir como una prueba de estrés crítica para medir la competencia general en investigación.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Este trabajo presenta uCDCR, un conjunto de datos unificado que consolida y estandariza diversos corpus de resolución de coreferencia cruzada de documentos en inglés para entidades y eventos, permitiendo un análisis sistemático que demuestra la necesidad de abordar ambos tipos de coreferencia y mejorar la generalización de los modelos.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

El artículo presenta QIME, un marco basado en ontologías que genera incrustaciones médicas interpretables mediante preguntas de sí/no clínicamente significativas, superando a los métodos anteriores y reduciendo la brecha con los codificadores biomédicos de caja negra sin necesidad de entrenar clasificadores por pregunta.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Este trabajo presenta ClinConsensus, un nuevo benchmark en chino basado en el consenso de expertos clínicos que evalúa modelos de lenguaje grandes en escenarios médicos abiertos y complejos mediante un sistema de puntuación de consistencia y un marco de doble juez, revelando brechas significativas en la capacidad de razonamiento y planificación de tratamientos de los modelos actuales.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

Este trabajo propone el Proceso Recursivo de Pensar y Responder (R-TAP), un método que mejora la precisión y estabilidad de los modelos de lenguaje y visión mediante ciclos de razonamiento iterativo guiados por un generador de confianza, reduciendo así los errores y las expresiones de autocrítica en comparación con los enfoques de un solo paso.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Este artículo presenta un modelo de sustitución que preserva simultáneamente la distribución de frecuencias de los símbolos y la estructura de correlaciones de largo alcance en secuencias simbólicas como el lenguaje y el ADN, generando nuevas secuencias que mantienen estas propiedades estadísticas clave mientras aleatorizan las dependencias de corto alcance.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

El artículo demuestra que la autoevolución sostenible de los modelos de lenguaje grandes requiere una pipeline de datos auto-sintetizados que garantice una ganancia de información aprendible, abordada mediante roles triádicos y tres diseños sistémicos: coevolución asimétrica, crecimiento de capacidad y búsqueda proactiva de información.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

El artículo demuestra que en la atención dispersa, la co-adaptación de las proyecciones Q/K/V absorbe la señal de enrutamiento, haciendo que los mecanismos de puerta aprendidos rindan casi igual que las puertas aleatorias y sugiriendo que los enfoques *post-hoc* son necesarios para evitar este fenómeno.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

El estudio demuestra que, en entornos de agentes de IA, la formación de seguridad persiste tras la optimización de la utilidad y que todas las estrategias de entrenamiento convergen hacia una frontera de Pareto lineal, lo que indica la necesidad de comprender mejor la dinámica del post-entrenamiento.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

El artículo presenta HELIOS, un modelo que supera las limitaciones de las fusiones temprana y tardía en la recuperación de tablas y texto mediante la combinación de recuperación de subgrafos bipartitos basados en aristas, expansión dinámica de nodos relevantes y refinamiento lógico con LLMs, logrando mejoras significativas en el rendimiento en la tarea de respuesta a preguntas abiertas.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Este estudio demuestra que el modelo de traducción neuronal NLLB-200 no solo agrupa idiomas por similitud superficial, sino que ha internalizado implícitamente la estructura genealógica de las lenguas y asociaciones conceptuales universales, revelando una geometría de representaciones que refleja un almacén conceptual neutral al idioma análogo a la organización cognitiva humana.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Este trabajo presenta un marco teórico y empírico que caracteriza la memorización en modelos de lenguaje difusivos, demostrando que su probabilidad de extracción exacta aumenta con la resolución de muestreo y que, bajo evaluaciones alineadas, exhiben una fuga de información de identificación personal significativamente menor en comparación con los modelos autoregresivos.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

El artículo presenta RO-N3WS, un nuevo conjunto de datos de voz rumano diverso que mejora la generalización y el rendimiento de los sistemas de reconocimiento automático del habla en condiciones de recursos limitados y fuera de distribución mediante la fine-tuning de modelos de vanguardia.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

← Anterior Siguiente →