cs.CV artículos | Gist.Science

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Este artículo presenta DyMo, un marco de selección dinámica de modalidades en tiempo de inferencia que resuelve el dilema entre descartar o imputar datos faltantes en el aprendizaje multimodal al identificar e integrar adaptativamente las modalidades recuperadas más fiables mediante una función de recompensa basada en la pérdida de la tarea, logrando un rendimiento superior en diversos escenarios de datos incompletos.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Este artículo presenta CMAFNet, una red de alineación y fusión multimodal que combina purificación de características y atención contextual para mejorar significativamente la detección de defectos pequeños en líneas de transmisión mediante drones, superando a los métodos existentes en precisión y eficiencia computacional.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabajo presenta un marco híbrido de registro y segmentación para el análisis de tumores hepáticos bajo supervisión débil, demostrando que, aunque es posible propagar etiquetas entre modalidades para anatomía visible, la ausencia de características discriminativas en la tomografía computarizada intraoperatoria impide actualmente la segmentación efectiva de patologías "invisibles".

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabajo presenta LUMIR25, un método de registro de IRM cerebral multimodal *zero-shot* que obtuvo el primer lugar en el desafío LUMIR25 de Learn2Reg 2025 al combinar sesgos inductivos específicos, un descriptor de vecindad independiente de la modalidad (MIND), aleatorización de intensidad y optimización específica de instancia para lograr una generalización robusta entre contrastes sin necesidad de síntesis de imágenes.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

El artículo presenta ViewRope, un método de incrustación posicional rotatoria consciente de la geometría que, al inyectar direcciones de rayos de cámara en los transformadores de video, resuelve la deriva geométrica y mejora la consistencia espacial a largo plazo en los modelos mundiales predictivos, complementado con una atención dispersa eficiente y una nueva suite de evaluación llamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

El artículo presenta Agent Banana, un marco de trabajo jerárquico que utiliza mecanismos de "Context Folding" y "Image Layer Decomposition" para lograr una edición de imágenes de alta fidelidad y consciente de los objetos en flujos de trabajo profesionales, validado mediante el nuevo benchmark de alta definición HDD-Bench.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Este artículo presenta un método de detección de objetos rápido y eficiente energéticamente para sistemas IoT en dispositivos de borde, que utiliza la diferencia de cuadros y el modelo MobileNet para superar significativamente en precisión, eficiencia y latencia a los métodos de extremo a extremo, especialmente en la detección de objetos en movimiento rápido como trenes y aviones.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Tele-Omni es un marco unificado multimodal que integra modelos de lenguaje grandes y generadores basados en difusión para realizar tareas diversas de generación y edición de video mediante instrucciones heterogéneas (texto, imágenes y videos de referencia) dentro de un único modelo.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

El artículo presenta Time2General, un marco de trabajo que utiliza consultas de estabilidad y un decodificador de memoria espacio-temporal para lograr una segmentación semántica de video generalizada en dominios con alta consistencia temporal y robustez frente a cambios de muestreo, eliminando el parpadeo sin necesidad de adaptación en tiempo de prueba.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

El artículo presenta SAGE, un marco agentic escalable que genera entornos 3D realistas y listos para simulación a partir de tareas específicas para agentes encarnados, utilizando un proceso iterativo de generación y crítica que permite entrenar políticas con datos sintéticos que generalizan a objetos y diseños no vistos.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Este artículo presenta un enfoque de aprendizaje profundo que aborda la escasez de supervisión en la clasificación de radiografías de tórax mediante estrategias específicas para el aprendizaje de cola larga y el reconocimiento de cero disparos, logrando el primer lugar en el desafío CXR-LT 2026.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

MedVAR: Towards Scalable and Efficient Medical Image Generation via Next-scale Autoregressive Prediction

El artículo presenta MedVAR, el primer modelo fundacional autoregresivo que utiliza la predicción de la siguiente escala para generar imágenes médicas de alta fidelidad y escalables mediante un enfoque de lo grueso a lo fino, respaldado por un conjunto de datos armonizado de 440.000 imágenes.

Zhicheng He, Yunpeng Zhao, Junde Wu + 5 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Este estudio presenta un nuevo conjunto de datos público para la detección de la madurez de fresas, evaluando comparativamente modelos YOLO (v8, v9 y 11) para demostrar que las arquitecturas de tamaño pequeño y mediano ofrecen un rendimiento equilibrado y eficiente en aplicaciones de agricultura inteligente.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Este estudio revela que los modelos de visión-linguaje (VLM) carecen de una capacidad de localización espacial precisa para elementos visuales no textuales, ya que su rendimiento colapsa drásticamente al identificar cuadrados llenos en comparación con símbolos de texto, lo que demuestra que dependen de una vía de reconocimiento de texto para realizar razonamiento espacial.

Yuval Levental2026-02-24🤖 cs.LG

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

ReMoRa es un modelo de lenguaje multimodal grande que mejora la comprensión de videos largos al procesar representaciones comprimidas que combinan fotogramas clave RGB con una representación de movimiento refinada y desruidada, logrando una complejidad lineal y superando a los métodos existentes en diversos benchmarks.

Daichi Yashima, Shuhei Kurita, Yusuke Oda + 1 more2026-02-24💻 cs

StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

El artículo presenta StructCore, un método de detección de anomalías no supervisado y sin entrenamiento que mejora la puntuación a nivel de imagen mediante descriptores estructurales y calibración de Mahalanobis, superando las limitaciones del *max pooling* y logrando un rendimiento excepcional en conjuntos de datos como MVTec AD y VisA.

Joongwon Chae, Lihui Luo, Yang Liu + 8 more2026-02-24💻 cs

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

El artículo presenta GraphThinker, un método de ajuste fino basado en refuerzo que reduce las alucinaciones en el razonamiento de video mediante la construcción de grafos de escenas basados en eventos para modelar relaciones causales y la incorporación de una recompensa de atención visual para mejorar la fundamentación visual.

Zixu Cheng, Da Li, Jian Hu + 4 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

El artículo presenta DesignAsCode, un marco innovador que reformula la generación de diseños gráficos como una tarea de síntesis programática mediante HTML/CSS, utilizando un pipeline de planificación, implementación y reflexión para lograr un equilibrio superior entre la fidelidad visual y la editabilidad estructural en comparación con los enfoques existentes.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

El artículo presenta BLM-Guard, un marco de moderación multimodal explicable para anuncios de videos cortos que combina razonamiento de cadena de pensamiento, principios de políticas basados en reglas y recompensas guiadas por críticos para detectar manipulaciones visuales y discursivas con mayor precisión y generalización que los métodos existentes.

Yiran Yang, Zhaowei Liu, Yuan Yuan + 10 more2026-02-24💻 cs

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Este estudio presenta una réplica fiel de FedTPG que valida su capacidad para mejorar la generalización en modelos visión-idioma mediante la generación dinámica de prompts en entornos federados, logrando resultados consistentes con los del artículo original en seis conjuntos de datos diversos.

Suraj Prasad, Anubha Pant2026-02-24🤖 cs.LG

← Anterior Siguiente →