DL3^3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

El marco DL³M propuesto integra un modelo de clasificación híbrido (MobileCoAtNet) con grandes modelos de lenguaje para generar razonamiento clínico estructurado a partir de imágenes endoscópicas, demostrando que, aunque esta combinación mejora la calidad de las explicaciones, los modelos actuales aún carecen de la estabilidad necesaria para decisiones médicas de alto riesgo.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Este artículo presenta DyMo, un marco de selección dinámica de modalidades en tiempo de inferencia que resuelve el dilema entre descartar o imputar datos faltantes en el aprendizaje multimodal al identificar e integrar adaptativamente las modalidades recuperadas más fiables mediante una función de recompensa basada en la pérdida de la tarea, logrando un rendimiento superior en diversos escenarios de datos incompletos.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabajo presenta un marco híbrido de registro y segmentación para el análisis de tumores hepáticos bajo supervisión débil, demostrando que, aunque es posible propagar etiquetas entre modalidades para anatomía visible, la ausencia de características discriminativas en la tomografía computarizada intraoperatoria impide actualmente la segmentación efectiva de patologías "invisibles".

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabajo presenta LUMIR25, un método de registro de IRM cerebral multimodal *zero-shot* que obtuvo el primer lugar en el desafío LUMIR25 de Learn2Reg 2025 al combinar sesgos inductivos específicos, un descriptor de vecindad independiente de la modalidad (MIND), aleatorización de intensidad y optimización específica de instancia para lograr una generalización robusta entre contrastes sin necesidad de síntesis de imágenes.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

El artículo presenta ViewRope, un método de incrustación posicional rotatoria consciente de la geometría que, al inyectar direcciones de rayos de cámara en los transformadores de video, resuelve la deriva geométrica y mejora la consistencia espacial a largo plazo en los modelos mundiales predictivos, complementado con una atención dispersa eficiente y una nueva suite de evaluación llamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Este artículo presenta un método de detección de objetos rápido y eficiente energéticamente para sistemas IoT en dispositivos de borde, que utiliza la diferencia de cuadros y el modelo MobileNet para superar significativamente en precisión, eficiencia y latencia a los métodos de extremo a extremo, especialmente en la detección de objetos en movimiento rápido como trenes y aviones.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

El artículo presenta Time2General, un marco de trabajo que utiliza consultas de estabilidad y un decodificador de memoria espacio-temporal para lograr una segmentación semántica de video generalizada en dominios con alta consistencia temporal y robustez frente a cambios de muestreo, eliminando el parpadeo sin necesidad de adaptación en tiempo de prueba.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs