cs.CV artículos | Gist.Science

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

ShapeShift es un método que sintetiza configuraciones de objetos rígidos sin superposiciones que representan conceptos semánticos mediante el uso de características de modelos de difusión para guiar anisotrópicamente la resolución de conflictos geométricos, logrando así un equilibrio entre validez física y claridad semántica.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabajo introduce el conjunto de datos y punto de referencia Qualcomm Interactive Video Dataset (IVD) para evaluar la capacidad de los modelos de visión-idioma para responder preguntas en tiempo real sobre escenas del mundo real, demostrando que, aunque los modelos actuales están muy por detrás del rendimiento humano, el ajuste fino puede reducir significativamente esta brecha en muchas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este trabajo propone un método de generación de pesos analógicos inspirado en el cerebro, denominado BiAG, que permite el aprendizaje incremental de pocas clases sin ajuste fino de parámetros al derivar pesos de nuevas clases a partir de conocimientos previos mediante mecanismos de atención y conversión semántica, logrando así un rendimiento superior en conjuntos de datos como miniImageNet, CUB-200 y CIFAR-100.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Este artículo presenta JavisDiT, un transformador de difusión unificado que genera audio y video sincronizados de alta calidad mediante un prior jerárquico espaciotemporal, respaldado por un nuevo benchmark y métricas de evaluación diseñados para escenarios del mundo real.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

El artículo presenta STEP, un método de sondeo ligero que incorpora codificaciones posicionales y atención para capturar el orden temporal, superando tanto a las técnicas de ajuste fino eficientes como a los modelos completamente entrenados en la clasificación de acciones casi simétricas para la interacción humano-robot.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

El artículo propone DL4ND, el primer método diseñado específicamente para la generalización consciente del ruido (NAG), que aprovecha la mayor variación de las muestras ruidosas entre dominios para superar las limitaciones de los enfoques existentes y lograr mejoras significativas en la generalización.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

El artículo presenta nnLandmark, un marco de trabajo autoconfigurable que combina componentes de nnU-Net para lograr un rendimiento de vanguardia en la detección de puntos de referencia médicos 3D, ofreciendo una solución lista para usar que elimina la necesidad de ajuste manual de hiperparámetros y establece un estándar unificado para la evaluación y comparación de métodos en este campo.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Este artículo propone un método de coincidencia de características semidensas que mejora el rendimiento al utilizar una atención guiada por confianza para eliminar el ruido de regiones irrelevantes, ajustando dinámicamente las distribuciones de atención y reescalando las características de valor basándose en mapas de confianza precalculados.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

El artículo presenta GRILL, una técnica que restaura las señales de gradiente en capas mal condicionadas de los autoencodadores para superar las limitaciones de los ataques adversarios existentes y permitir una evaluación más rigurosa de su robustez.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artículo propone un método de transferencia de representaciones de características a modelos ligeros mediante una nueva noción de "coherencia de percepción" que, al minimizar un nuevo tipo de pérdida basada en el ranking de disimilitudes, permite que el modelo estudiantil imite la percepción del modelo docente preservando la coherencia global sin necesidad de replicar su geometría absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

El artículo presenta U2-BENCH, el primer benchmark integral que evalúa el rendimiento de 23 modelos de lenguaje-visión grandes en la comprensión de imágenes de ultrasonido a través de múltiples tareas clínicas, revelando un buen desempeño en clasificación pero desafíos persistentes en el razonamiento espacial y la generación de lenguaje clínico.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

El artículo presenta TEMU-VTOFF, un marco de aprendizaje profundo basado en DiT que utiliza información multimodal (imagen, texto y máscara) para generar imágenes de productos de ropa de alta calidad y libres de ambigüedades a partir de fotos de personas vestidas, superando así las limitaciones de detalle y precisión de los métodos existentes en la tarea de "virtual try-off".

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Los autores proponen un nuevo códec de video neuronal para fotogramas B que mejora la compresión mediante un autoencoder de movimiento interactivo de doble rama y una fusión temporal selectiva, logrando una reducción de tasa de bits del 10% frente a los métodos más avanzados y un rendimiento comparable al estándar H.266/VVC.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artículo presenta la Distancia de Características de Percepción (PCD), una nueva métrica que incorpora la incertidumbre estocástica de los algoritmos de percepción para evaluar la estabilidad y robustez de los sistemas de conducción autónoma en condiciones dinámicas, validada mediante el nuevo conjunto de datos SensorRainFall que demuestra su superioridad sobre las métricas tradicionales.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabajo demuestra que mejorar los modelos de visión y lenguaje médicos mediante la incorporación de imágenes de referencia sanas y prompts comparativos, junto con un ajuste fino supervisado ligero, incrementa significativamente el rendimiento diagnóstico y la eficiencia de la muestra al imitar la práctica clínica de diagnóstico comparativo.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabajo presenta un nuevo marco de reconstrucción hiperespectral multiimagen (MI-HSR) que aprovecha las cámaras de smartphones con filtros espectrales, respaldado por el primer conjunto de datos específico (Doomer) y un módulo de alineación ligero, logrando una estimación espectral un 30% más precisa que las cámaras RGB convencionales y mejorando un 5% adicional la calidad de los métodos actuales.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Este artículo presenta SCINet, un marco innovador para el aprendizaje multietiqueta parcial que integra conocimiento semántico de co-ocurrencia mediante un módulo de promotor bi-dominante y una fusión de modalidades cruzadas para mejorar la alineación semántica y la identificación de relaciones ambiguas entre etiquetas e instancias.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

El modelo MoVieS presenta un enfoque unificado y extremadamente rápido que reconstruye escenas dinámicas 4D a partir de videos monoculares en un segundo, permitiendo simultáneamente la síntesis de vistas, la reconstrucción geométrica y el seguimiento de puntos mediante primitivas gaussianas alineadas con píxeles.

Chenguo Lin, Yuchen Lin, Panwang Pan + 5 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

El artículo presenta Winsor-CAM, un método eficiente y robusto que genera explicaciones visuales para redes neuronales convolucionales mediante la agregación de mapas de gradiente de todas las capas y su ajuste mediante Winsorización, permitiendo a los usuarios controlar el nivel de detalle semántico y logrando un rendimiento superior en localización y fidelidad frente a técnicas existentes en dominios como la salud y la visión por computadora.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

El artículo propone DEFNet, una red de fusión profunda basada en evidencia para la evaluación ciega de la calidad de imágenes que mejora el rendimiento mediante la optimización multitarea, una estrategia de fusión de información confiable y una estimación avanzada de incertidumbre.

Yiwei Lou, Yuanpeng He, Rongchao Zhang + 3 more2026-02-24⚡ eess

← Anterior Siguiente →