cs.CV artículos | Gist.Science

Knowledge-aware Visual Question Generation for Remote Sensing Images

Este artículo presenta KRSVQG, un modelo de generación de preguntas visuales para imágenes de teledetección que integra conocimiento externo y representaciones intermedias de subtítulos para superar las limitaciones de los métodos existentes y generar preguntas más ricas y contextualizadas.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

RegionRoute: Regional Style Transfer with Diffusion Model

El artículo presenta RegionRoute, un marco de difusión asistido por atención que logra una transferencia de estilo regional precisa y sin máscaras alineando las puntuaciones de atención con objetos específicos durante el entrenamiento, superando así las limitaciones de localización y generalización de los métodos existentes.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Este trabajo presenta CORVET, un motor de procesamiento vectorial eficiente en recursos para IA en el borde que utiliza unidades MAC basadas en CORDIC de precisión mixta y reconfigurables en tiempo de ejecución para lograr un alto rendimiento y eficiencia energética en aplicaciones de IAoT.

Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande + 1 more2026-02-24⚡ eess

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

El artículo presenta DD-CAM, un marco sin gradientes que adapta la depuración delta para identificar subconjuntos mínimos y suficientes de unidades de representación en modelos de visión, generando mapas de saliencia más fieles y precisos que los enfoques basados en CAM existentes.

Krishna Khadka, Yu Lei, Raghu N. Kacker + 1 more2026-02-24💻 cs

A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Este trabajo presenta un marco de dos etapas que combina detección, seguimiento y clasificación para lograr una inspección de calidad de manzanas estable y temporalmente consistente en entornos industriales de cintas transportadoras densas.

Keonvin Park, Aditya Pal, Jin Hong Mok2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Este trabajo presenta MRI CEKWorld, un modelo de mundo que utiliza aprendizaje de consistencia espaciotemporal para superar las limitaciones de la adquisición de resonancia magnética con bajo rendimiento temporal, generando dinámicas de contraste continuas y realistas mediante alineación latente y aprendizaje de diferencias para preservar la estructura anatómica y la suavidad temporal.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

WildOS: Open-Vocabulary Object Search in the Wild

WildOS es un sistema unificado que combina la exploración geométrica segura con el razonamiento semántico basado en modelos de visión fundacional y un método de localización por filtro de partículas, permitiendo a los robots navegar de forma autónoma y eficiente en entornos exteriores complejos para buscar objetos de vocabulario abierto sin mapas previos.

Hardik Shah, Erica Tevere, Deegan Atha + 6 more2026-02-24💻 cs

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

El artículo presenta IPv2, una estrategia mejorada de purificación de imágenes que introduce módulos para eliminar el ruido en el fondo y el parénquima pulmonar, superando las limitaciones de la versión anterior y logrando una restauración superior en tomografías computarizadas de tórax de ultra baja dosis.

Guoliang Gong, Man Yu2026-02-24🤖 cs.AI

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

El artículo presenta USR 2.0, un método que utiliza un forzamiento de maestro impulsado por CTC y muestreo mixto para reducir a la mitad el tiempo de entrenamiento y mejorar la robustez en el reconocimiento unificado de habla, superando así a los enfoques anteriores en diversas pruebas.

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis2026-02-24💻 cs

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

El artículo presenta US-JEPA, un marco de aprendizaje auto-supervisado que utiliza un objetivo de entrenamiento asimétrico con un profesor estático para superar los desafíos del ruido en imágenes de ultrasonido, logrando representaciones robustas que igualan o superan a los modelos de visión existentes en diversas tareas de clasificación.

Ashwath Radhachandran, Vedrana Ivezić, Shreeram Athreya + 3 more2026-02-24🤖 cs.LG

DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

El artículo presenta DefenseSplat, un método que mejora la robustez de la representación 3D Gaussian Splatting frente a ataques adversarios mediante una estrategia de filtrado sensible a frecuencias que elimina el ruido de alta frecuencia preservando el contenido de baja frecuencia, logrando así una reconstrucción segura sin comprometer el rendimiento en datos limpios.

Yiran Qiao, Yiren Lu, Yunlai Zhou + 4 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

El estudio presenta RetinaVision, un marco de aprendizaje profundo basado en redes Xception e InceptionV3 que, mediante técnicas de aumento de datos e interpretabilidad (GradCAM y LIME), logra una clasificación precisa de enfermedades retinianas en imágenes OCT con una precisión del 95,25% y se implementa en una aplicación web para uso clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

MultiDiffSense es un modelo de difusión unificado que genera imágenes visuo-táctiles alineadas y físicamente consistentes para múltiples sensores, superando a los métodos existentes en calidad y permitiendo reducir a la mitad la necesidad de datos reales para tareas de estimación de poses en robótica.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

El artículo presenta UP-Fuse, un marco de fusión LiDAR-cámara guiado por incertidumbre en vista de rango que logra una segmentación panóptica 3D robusta y fiable incluso ante degradación, descalibración o fallo del sensor de la cámara.

Rohit Mohan, Florian Drews, Yakov Miron + 2 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

PoseCraft es un marco de difusión que sintetiza imágenes humanas fotorrealistas mediante la inyección de hitos 3D tokenizados y parámetros de cámara como condiciones discretas, superando las limitaciones de los flujos de trabajo existentes al preservar la semántica 3D y los detalles finos sin necesidad de rigging manual o reoptimización por pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

El artículo presenta MentalBlackboard, un nuevo benchmark para evaluar la capacidad de visualización espacial de los modelos de visión-idioma en tareas de plegado de papel y perforación, revelando que, aunque algunos modelos logran un rendimiento moderado en tareas de generalización, siguen teniendo dificultades significativas para aplicar transformaciones simétricas y realizar planificación espacial compleja.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Referring Layer Decomposition

Este trabajo introduce la tarea de Descomposición de Capas de Referencia (RLD) y el conjunto de datos RefLade para permitir la generación y edición de imágenes mediante capas RGBA controladas por prompts, junto con un modelo base llamado RefLayer que demuestra alta fidelidad visual y generalización cero-shot.

Fangyi Chen, Yaojie Shen, Lu Xu + 4 more2026-02-24💻 cs

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este estudio examina la Hipótesis de la Representación Platónica en un entorno trimodal, revelando que, aunque el alineamiento en espacios de representación contrastiva mejora con el tamaño del modelo, es asimétrico (con la serie temporal alineándose más con la visión que con el lenguaje) y presenta un umbral de saturación respecto a la densidad de la información.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Este artículo presenta un marco de computación en tiempo de prueba que optimiza la política de los Modelos Visión-Lenguaje para la manipulación robótica mediante una reflexión multi-trayectoria guiada por valor, logrando una mejora del 24,6% en la tasa de éxito y una reducción del 56,5% en el tiempo de inferencia frente a los métodos existentes.

Yanting Yang, Shenyuan Gao, Qingwen Bu + 2 more2026-02-24🤖 cs.LG

Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Este artículo presenta el "Stair Pooling", una estrategia de muestreo descendente que reduce la pérdida de información mediante operaciones de agrupamiento concatenadas y escalonadas, logrando mejorar significativamente la precisión de la segmentación de imágenes biomédicas en arquitecturas U-Net al preservar mejor los detalles espaciales y la información de largo alcance.

Mingjie Li, Yizheng Chen, Md Tauhidul Islam + 1 more2026-02-24🤖 cs.AI

← Anterior Siguiente →