Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Este artículo presenta DyMo, un marco de selección dinámica de modalidades en tiempo de inferencia que resuelve el dilema entre descartar o imputar datos faltantes en el aprendizaje multimodal al identificar e integrar adaptativamente las modalidades recuperadas más fiables mediante una función de recompensa basada en la pérdida de la tarea, logrando un rendimiento superior en diversos escenarios de datos incompletos.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabajo presenta un marco híbrido de registro y segmentación para el análisis de tumores hepáticos bajo supervisión débil, demostrando que, aunque es posible propagar etiquetas entre modalidades para anatomía visible, la ausencia de características discriminativas en la tomografía computarizada intraoperatoria impide actualmente la segmentación efectiva de patologías "invisibles".

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabajo presenta LUMIR25, un método de registro de IRM cerebral multimodal *zero-shot* que obtuvo el primer lugar en el desafío LUMIR25 de Learn2Reg 2025 al combinar sesgos inductivos específicos, un descriptor de vecindad independiente de la modalidad (MIND), aleatorización de intensidad y optimización específica de instancia para lograr una generalización robusta entre contrastes sin necesidad de síntesis de imágenes.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

El artículo presenta ViewRope, un método de incrustación posicional rotatoria consciente de la geometría que, al inyectar direcciones de rayos de cámara en los transformadores de video, resuelve la deriva geométrica y mejora la consistencia espacial a largo plazo en los modelos mundiales predictivos, complementado con una atención dispersa eficiente y una nueva suite de evaluación llamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Este artículo presenta un método de detección de objetos rápido y eficiente energéticamente para sistemas IoT en dispositivos de borde, que utiliza la diferencia de cuadros y el modelo MobileNet para superar significativamente en precisión, eficiencia y latencia a los métodos de extremo a extremo, especialmente en la detección de objetos en movimiento rápido como trenes y aviones.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

El artículo presenta Time2General, un marco de trabajo que utiliza consultas de estabilidad y un decodificador de memoria espacio-temporal para lograr una segmentación semántica de video generalizada en dominios con alta consistencia temporal y robustez frente a cambios de muestreo, eliminando el parpadeo sin necesidad de adaptación en tiempo de prueba.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Este estudio presenta un nuevo conjunto de datos público para la detección de la madurez de fresas, evaluando comparativamente modelos YOLO (v8, v9 y 11) para demostrar que las arquitecturas de tamaño pequeño y mediano ofrecen un rendimiento equilibrado y eficiente en aplicaciones de agricultura inteligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Este estudio revela que los modelos de visión-linguaje (VLM) carecen de una capacidad de localización espacial precisa para elementos visuales no textuales, ya que su rendimiento colapsa drásticamente al identificar cuadrados llenos en comparación con símbolos de texto, lo que demuestra que dependen de una vía de reconocimiento de texto para realizar razonamiento espacial.

Yuval Levental2026-02-24🤖 cs.LG

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

El artículo presenta StructCore, un método de detección de anomalías no supervisado y sin entrenamiento que mejora la puntuación a nivel de imagen mediante descriptores estructurales y calibración de Mahalanobis, superando las limitaciones del *max pooling* y logrando un rendimiento excepcional en conjuntos de datos como MVTec AD y VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

El artículo presenta DesignAsCode, un marco innovador que reformula la generación de diseños gráficos como una tarea de síntesis programática mediante HTML/CSS, utilizando un pipeline de planificación, implementación y reflexión para lograr un equilibrio superior entre la fidelidad visual y la editabilidad estructural en comparación con los enfoques existentes.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

El artículo presenta BLM-Guard, un marco de moderación multimodal explicable para anuncios de videos cortos que combina razonamiento de cadena de pensamiento, principios de políticas basados en reglas y recompensas guiadas por críticos para detectar manipulaciones visuales y discursivas con mayor precisión y generalización que los métodos existentes.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs