MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

El artículo presenta MoDES, un marco de inferencia libre de entrenamiento que acelera los modelos multimodales de lenguaje grande con mezcla de expertos mediante un mecanismo de puerta local modulado globalmente y un umbralizado de doble modalidad, logrando una reducción significativa del tiempo de inferencia sin sacrificar el rendimiento en comparación con métodos anteriores.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

El artículo presenta GuideFlow, un marco de planificación para conducción autónoma que utiliza un flujo de coincidencia restringido para integrar directamente las limitaciones de seguridad y físicas en el proceso generativo, logrando así evitar el colapso de modos y ofrecer un control preciso sobre la agresividad de la trayectoria, lo que resulta en un rendimiento de vanguardia en varios benchmarks.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

El artículo presenta SelfAI, un marco de descubrimiento científico autogestionado y basado en agentes múltiples que automatiza la exploración de hipótesis a largo plazo mediante la traducción de intenciones de investigación en experimentos ejecutables y la toma de decisiones adaptativas, logrando soluciones de alta calidad con menos ensayos redundantes que los métodos tradicionales y basados en LLM.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabajo presenta CheXmask-U, un enfoque que cuantifica la incertidumbre en la segmentación anatómica basada en puntos de referencia de radiografías torácicas mediante medidas latentes y predictivas, junto con la liberación de un gran conjunto de datos y herramientas para mejorar la robustez y seguridad de estos métodos.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Este artículo presenta MRD, un enfoque que utiliza renderizado diferenciable basado en física para generar metameros de escenas 3D y así sondear y comprender cómo los modelos de visión artificial interpretan y son sensibles a propiedades físicas subyacentes como la geometría y el material, más allá de las representaciones bidimensionales.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL3^3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

El marco DL³M propuesto integra un modelo de clasificación híbrido (MobileCoAtNet) con grandes modelos de lenguaje para generar razonamiento clínico estructurado a partir de imágenes endoscópicas, demostrando que, aunque esta combinación mejora la calidad de las explicaciones, los modelos actuales aún carecen de la estabilidad necesaria para decisiones médicas de alto riesgo.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI