Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabajo introduce el conjunto de datos y punto de referencia Qualcomm Interactive Video Dataset (IVD) para evaluar la capacidad de los modelos de visión-idioma para responder preguntas en tiempo real sobre escenas del mundo real, demostrando que, aunque los modelos actuales están muy por detrás del rendimiento humano, el ajuste fino puede reducir significativamente esta brecha en muchas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este trabajo propone un método de generación de pesos analógicos inspirado en el cerebro, denominado BiAG, que permite el aprendizaje incremental de pocas clases sin ajuste fino de parámetros al derivar pesos de nuevas clases a partir de conocimientos previos mediante mecanismos de atención y conversión semántica, logrando así un rendimiento superior en conjuntos de datos como miniImageNet, CUB-200 y CIFAR-100.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

El artículo presenta nnLandmark, un marco de trabajo autoconfigurable que combina componentes de nnU-Net para lograr un rendimiento de vanguardia en la detección de puntos de referencia médicos 3D, ofreciendo una solución lista para usar que elimina la necesidad de ajuste manual de hiperparámetros y establece un estándar unificado para la evaluación y comparación de métodos en este campo.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artículo propone un método de transferencia de representaciones de características a modelos ligeros mediante una nueva noción de "coherencia de percepción" que, al minimizar un nuevo tipo de pérdida basada en el ranking de disimilitudes, permite que el modelo estudiantil imite la percepción del modelo docente preservando la coherencia global sin necesidad de replicar su geometría absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

El artículo presenta TEMU-VTOFF, un marco de aprendizaje profundo basado en DiT que utiliza información multimodal (imagen, texto y máscara) para generar imágenes de productos de ropa de alta calidad y libres de ambigüedades a partir de fotos de personas vestidas, superando así las limitaciones de detalle y precisión de los métodos existentes en la tarea de "virtual try-off".

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artículo presenta la Distancia de Características de Percepción (PCD), una nueva métrica que incorpora la incertidumbre estocástica de los algoritmos de percepción para evaluar la estabilidad y robustez de los sistemas de conducción autónoma en condiciones dinámicas, validada mediante el nuevo conjunto de datos SensorRainFall que demuestra su superioridad sobre las métricas tradicionales.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabajo demuestra que mejorar los modelos de visión y lenguaje médicos mediante la incorporación de imágenes de referencia sanas y prompts comparativos, junto con un ajuste fino supervisado ligero, incrementa significativamente el rendimiento diagnóstico y la eficiencia de la muestra al imitar la práctica clínica de diagnóstico comparativo.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabajo presenta un nuevo marco de reconstrucción hiperespectral multiimagen (MI-HSR) que aprovecha las cámaras de smartphones con filtros espectrales, respaldado por el primer conjunto de datos específico (Doomer) y un módulo de alineación ligero, logrando una estimación espectral un 30% más precisa que las cámaras RGB convencionales y mejorando un 5% adicional la calidad de los métodos actuales.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

El artículo presenta Winsor-CAM, un método eficiente y robusto que genera explicaciones visuales para redes neuronales convolucionales mediante la agregación de mapas de gradiente de todas las capas y su ajuste mediante Winsorización, permitiendo a los usuarios controlar el nivel de detalle semántico y logrando un rendimiento superior en localización y fidelidad frente a técnicas existentes en dominios como la salud y la visión por computadora.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI