cs.CV artículos | Gist.Science

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

El marco DL³M propuesto integra un modelo de clasificación híbrido (MobileCoAtNet) con grandes modelos de lenguaje para generar razonamiento clínico estructurado a partir de imágenes endoscópicas, demostrando que, aunque esta combinación mejora la calidad de las explicaciones, los modelos actuales aún carecen de la estabilidad necesaria para decisiones médicas de alto riesgo.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

El artículo presenta FALCON-SFOD, un marco que mejora la detección de objetos libre de fuentes al combinar la regularización del espacio de características mediante modelos fundacionales (SPAR) y un aprendizaje robusto ante el desequilibrio de ruido (IRPL) para mitigar el desplazamiento de dominio y generar pseudolabels más fiables.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

El artículo presenta REVEALER, un marco unificado que utiliza el razonamiento visual guiado por refuerzo para evaluar la alineación entre texto e imagen a nivel de elementos, logrando un rendimiento superior y una mayor eficiencia en comparación con los métodos existentes.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

El artículo presenta Object-WIPER, un marco libre de entrenamiento que elimina objetos dinámicos y sus efectos visuales asociados de los videos mediante un transformador de difusión texto-a-video, logrando una reconstrucción semánticamente consistente y temporalmente coherente sin necesidad de reentrenamiento.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Este artículo presenta LookBench, un benchmark en vivo y holístico para la recuperación de imágenes de moda en entornos de comercio electrónico real, que incorpora imágenes recientes y generadas por IA, se actualiza periódicamente para evitar contaminación en la evaluación y establece nuevos estándares de rendimiento mediante modelos de última generación.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

El artículo presenta PyraTok, un tokenizador piramidal alineado con el lenguaje que aprende latentes discretos semánticamente estructurados a múltiples resoluciones espaciotemporales, logrando un rendimiento de vanguardia en la reconstrucción, generación y comprensión de video, así como en tareas de transferencia cero.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Este trabajo presenta Emotion-LLaMAv2, un marco de aprendizaje multimodal de extremo a extremo con un esquema de ajuste fino curricular, junto con el benchmark MMEVerse, que unifica y reanota doce conjuntos de datos de emociones para superar las limitaciones de los modelos anteriores en el reconocimiento y razonamiento emocional.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Este trabajo presenta FineVAU, un nuevo benchmark para la comprensión de anomalías en video que introduce la métrica alineada con humanos FVScore y el dataset FineW3 para evaluar de manera integral y detallada la capacidad de los modelos de lenguaje visuales en la identificación de eventos, entidades y ubicaciones en situaciones anómalas.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

El artículo presenta RepSFNet, una arquitectura ligera que utiliza reparametrización estructural y fusión de características para lograr un conteo de multitudes preciso y en tiempo real, superando los desafíos de densidad variable y reduciendo significativamente la latencia de inferencia en comparación con los métodos existentes.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Este artículo presenta DyMo, un marco de selección dinámica de modalidades en tiempo de inferencia que resuelve el dilema entre descartar o imputar datos faltantes en el aprendizaje multimodal al identificar e integrar adaptativamente las modalidades recuperadas más fiables mediante una función de recompensa basada en la pérdida de la tarea, logrando un rendimiento superior en diversos escenarios de datos incompletos.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Este artículo presenta CMAFNet, una red de alineación y fusión multimodal que combina purificación de características y atención contextual para mejorar significativamente la detección de defectos pequeños en líneas de transmisión mediante drones, superando a los métodos existentes en precisión y eficiencia computacional.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabajo presenta un marco híbrido de registro y segmentación para el análisis de tumores hepáticos bajo supervisión débil, demostrando que, aunque es posible propagar etiquetas entre modalidades para anatomía visible, la ausencia de características discriminativas en la tomografía computarizada intraoperatoria impide actualmente la segmentación efectiva de patologías "invisibles".

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabajo presenta LUMIR25, un método de registro de IRM cerebral multimodal *zero-shot* que obtuvo el primer lugar en el desafío LUMIR25 de Learn2Reg 2025 al combinar sesgos inductivos específicos, un descriptor de vecindad independiente de la modalidad (MIND), aleatorización de intensidad y optimización específica de instancia para lograr una generalización robusta entre contrastes sin necesidad de síntesis de imágenes.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

El artículo presenta ViewRope, un método de incrustación posicional rotatoria consciente de la geometría que, al inyectar direcciones de rayos de cámara en los transformadores de video, resuelve la deriva geométrica y mejora la consistencia espacial a largo plazo en los modelos mundiales predictivos, complementado con una atención dispersa eficiente y una nueva suite de evaluación llamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

El artículo presenta Agent Banana, un marco de trabajo jerárquico que utiliza mecanismos de "Context Folding" y "Image Layer Decomposition" para lograr una edición de imágenes de alta fidelidad y consciente de los objetos en flujos de trabajo profesionales, validado mediante el nuevo benchmark de alta definición HDD-Bench.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Este artículo presenta un método de detección de objetos rápido y eficiente energéticamente para sistemas IoT en dispositivos de borde, que utiliza la diferencia de cuadros y el modelo MobileNet para superar significativamente en precisión, eficiencia y latencia a los métodos de extremo a extremo, especialmente en la detección de objetos en movimiento rápido como trenes y aviones.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Tele-Omni es un marco unificado multimodal que integra modelos de lenguaje grandes y generadores basados en difusión para realizar tareas diversas de generación y edición de video mediante instrucciones heterogéneas (texto, imágenes y videos de referencia) dentro de un único modelo.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

El artículo presenta Time2General, un marco de trabajo que utiliza consultas de estabilidad y un decodificador de memoria espacio-temporal para lograr una segmentación semántica de video generalizada en dominios con alta consistencia temporal y robustez frente a cambios de muestreo, eliminando el parpadeo sin necesidad de adaptación en tiempo de prueba.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

El artículo presenta SAGE, un marco agentic escalable que genera entornos 3D realistas y listos para simulación a partir de tareas específicas para agentes encarnados, utilizando un proceso iterativo de generación y crítica que permite entrenar políticas con datos sintéticos que generalizan a objetos y diseños no vistos.

Hongchi Xia, Xuan Li, Zhaoshuo Li + 9 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Este artículo presenta un enfoque de aprendizaje profundo que aborda la escasez de supervisión en la clasificación de radiografías de tórax mediante estrategias específicas para el aprendizaje de cola larga y el reconocimiento de cero disparos, logrando el primer lugar en el desafío CXR-LT 2026.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

← Anterior Siguiente →

cs.CV

DL3^33M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models