How Reliable is Language Model Micro-Benchmarking?

Este estudio demuestra que los micro-benchmarks actuales a menudo no logran clasificar modelos de lenguaje de manera fiable, especialmente cuando sus diferencias de rendimiento son pequeñas, y revela que se requieren cientos de ejemplos para lograr una consistencia comparable a la de las evaluaciones completas, lo que hace que el muestreo aleatorio sea una alternativa competitiva.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Este artículo demuestra teórica y empíricamente que inyectar información mediante un verificador externo de datos sintéticos (humano o modelo superior) previene el colapso del modelo durante el reentrenamiento iterativo, logrando mejoras a corto plazo que convergen a largo plazo hacia el "centro de conocimiento" del verificador.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu2026-03-09🤖 cs.LG

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

El artículo presenta KLASS, un método de muestreo rápido y adaptable que acelera significativamente la inferencia en modelos de difusión enmascarados mediante la identificación de predicciones estables basadas en la divergencia KL, logrando mejoras de velocidad y rendimiento en diversas tareas de generación sin necesidad de entrenamiento adicional.

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

El artículo presenta FireScope, un marco basado en modelos de lenguaje visual que utiliza razonamiento tipo "cadena de pensamiento" para predecir mapas de riesgo de incendios forestales con alta generalización entre continentes, respaldado por el nuevo conjunto de datos y benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

EgoCogNav: Cognition-aware Human Egocentric Navigation

El artículo presenta EgoCogNav, un marco de navegación egocéntrica multimodal que predice la incertidumbre percibida y fusiona características de la escena con señales sensoriales para anticipar trayectorias y movimientos de la cabeza, acompañado de la introducción del nuevo conjunto de datos CEN para investigar comportamientos de navegación humana en entornos reales.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

El paper presenta SPINE, un marco de aprendizaje por refuerzo en tiempo de prueba que selecciona tokens de alta entropía críticos para la toma de decisiones y aplica una regularización basada en bandas de entropía para evitar el colapso de las respuestas y mejorar el rendimiento en modelos de lenguaje grandes y multimodales sin necesidad de etiquetas.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

El artículo presenta DAISI, un algoritmo de filtrado escalable basado en modelos generativos que supera las limitaciones de los métodos clásicos de asimilación de datos al utilizar un prior generativo preentrenado combinado con pasos de muestreo inverso y guiado para manejar dinámicas complejas y observaciones no lineales sin necesidad de reentrenamiento.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Este trabajo propone un método que utiliza la familia de divergencias α\alpha para aproximar una distribución objetivo filtrada, permitiendo controlar explícitamente la compensación entre precisión y diversidad en modelos de lenguaje grandes y superando a los enfoques anteriores en cobertura sin sacrificar el rendimiento en la resolución de problemas de razonamiento.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

El artículo presenta DFIR-DETR, un detector basado en transformadores que mejora la detección de objetos pequeños mediante la agregación dinámica de características, una pirámide de características con preservación de normas y un refinamiento iterativo en el dominio de la frecuencia para superar las limitaciones de los métodos actuales.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Two-dimensional RMSD projections for reaction path visualization and validation

Este artículo presenta un método de visualización que proyecta las trayectorias de reacción en un plano bidimensional basado en la desviación cuadrática media (RMSD) corregida por permutación, superando las limitaciones de los análisis unidimensionales tradicionales para permitir una comparación más efectiva de diferentes métodos de optimización y validar rutas de reacción complejas.

Rohit Goswami2026-03-09🔬 cond-mat.mtrl-sci

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Este artículo propone un nuevo método de análisis de sensibilidad global basado en las curvas de Expectación Condicional Individual (ICE) para superar las limitaciones de los Gráficos de Dependencia Parcial (PDP) en la presencia de interacciones fuertes, demostrando mediante pruebas matemáticas y casos de estudio en ingeniería que esta aproximación ofrece una visión más rica y precisa de la importancia de las características en modelos de aprendizaje automático.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph Morlier2026-03-09🤖 cs.AI

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Este estudio presenta un nuevo enfoque de análisis de datos topológicos (TDA) basado en parches para imágenes de tomografía computarizada que supera a los métodos tradicionales en precisión y eficiencia computacional, ofreciendo además un paquete de Python para facilitar su implementación.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Understanding and Improving Hyperbolic Deep Reinforcement Learning

Este artículo presenta Hyper++, un agente de aprendizaje por refuerzo profundo en geometría hiperbólica que supera los desafíos de optimización mediante regularización de características, una función de pérdida categórica y capas mejoradas, logrando un entrenamiento estable y un rendimiento superior en entornos como ProcGen y Atari-5.

Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek2026-03-09🤖 cs.AI