cs.CV artículos | Gist.Science

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

El artículo presenta IV-tuning, un método de aprendizaje por transferencia eficiente en parámetros que supera a los enfoques actuales en tareas infrarrojo-visibles al evitar el ajuste completo de modelos preentrenados, logrando así una mejor generalización y eficiencia computacional con solo un 3% de parámetros entrenables.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

El artículo presenta MomentMix, una técnica de aumento de datos que combina ForegroundMix y BackgroundMix, junto con un Decodificador Consciente de la Longitud (Length-Aware Decoder) basado en DETR, para mejorar significativamente la recuperación de momentos breves en videos y superar el estado del arte en conjuntos de datos como QVHighlights, TACoS y Charades-STA.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Este trabajo presenta JOSH, un método de optimización conjunta que reconstruye en 4D la interacción entre humanos y entornos a partir de videos monoculares del mundo real, y su variante JOSH3R, un modelo entrenado con pseudoetiquetas derivadas de JOSH que supera a otros métodos sin optimización.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

Este artículo demuestra que los purificadores adversarios no basados en difusión pueden superar a los modelos de difusión en robustez, transferibilidad y generalización de color, logrando incluso un rendimiento superior en ImageNet sin necesidad de datos adicionales más allá del conjunto de entrenamiento.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

Este trabajo presenta Dual-IPO, un paradigma de optimización iterativa dual que mejora simultáneamente un modelo de recompensa y un modelo de generación de video mediante retroalimentación mutua, logrando una mayor alineación con las preferencias humanas y una calidad de síntesis superior sin necesidad de anotaciones manuales tediosas.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

El artículo presenta RelaCtrl, un marco de generación controlada eficiente que optimiza la integración de señales de control en los Transformadores de Difusión mediante la evaluación de la relevancia de cada capa y el uso de un mezclador de barajado bidimensional, logrando un rendimiento superior con solo el 15% de los parámetros y la complejidad computacional de métodos existentes como PixArt-delta.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Este trabajo presenta U-F²-CBM, un modelo de botella de conceptos que convierte cualquier clasificador visual congelado en un sistema interpretable sin necesidad de CLIP, etiquetas de imagen-concepto ni anotaciones manuales, logrando un rendimiento superior al estado del arte en tareas de clasificación y descripción de imágenes.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

El artículo presenta UniFuture, un modelo unificado de mundo 4D para la conducción autónoma que genera secuencias futuras de imágenes y mapas de profundidad geométricamente consistentes mediante un esquema de compartición de latentes duales y un mecanismo de interacción multiescala, superando así las limitaciones de los modelos existentes que tratan por separado la apariencia y la geometría.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

Este artículo presenta GmNet, un modelo ligero que, inspirado en el teorema de convolución y analizado desde una perspectiva de frecuencia, revisa los mecanismos de puerta para mitigar el sesgo de baja frecuencia y mejorar el rendimiento en la clasificación de imágenes.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

El artículo presenta ViT-Linearizer, un marco de destilación que transfiere el conocimiento de los Transformers de Visión (ViT) a modelos recurrentes de complejidad lineal mediante coincidencia de activaciones y predicción enmascarada, logrando así una mayor eficiencia computacional en imágenes de alta resolución y un rendimiento competitivo en ImageNet.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

El artículo presenta LAMM-ViT, un transformador de visión que utiliza modulación de enmascaramiento consciente de la capa y atención guiada por regiones para detectar de manera robusta rostros generados por IA, logrando un rendimiento superior y una mejor generalización frente a modelos de síntesis novedosos.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

Este artículo propone un marco de detección de objetos 3D basado en la destilación de conocimiento con predicción de reflectancia (RPKD) que, al descartar la reflectancia durante la transmisión comprimida y reconstruirla mediante un módulo de predicción geométrica, mejora la robustez y precisión de la detección en sistemas de percepción colaborativa con ancho de banda limitado.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

El artículo presenta BriGeS, un método eficiente que fusiona modelos fundacionales geométricos y semánticos mediante una Puente de Conexión y un ajuste de temperatura de atención para mejorar la estimación de profundidad monoculosa generalizada con un entrenamiento mínimo.

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

Este trabajo propone un método de "imaginación dispersa" que optimiza la planificación de modelos de mundo visuales en robótica reduciendo la carga computacional mediante una estrategia de atención grupal aleatorizada, lo que permite una ejecución en tiempo real sin sacrificar la precisión del control.

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

El artículo presenta LinGuinE, un marco de trabajo en PyTorch que combina registro de imágenes y segmentación guiada para lograr un seguimiento de lesiones y una segmentación volumétrica precisa en estudios longitudinales de tumores a partir de una sola indicación del radiólogo, sin necesidad de entrenamiento en datos longitudinales y logrando un rendimiento superior al estado del arte.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

Este trabajo presenta un marco novedoso basado en el Puente de Schrödinger y difusión condicional guiada por retroalimentación humana binaria para la traducción de imágenes CBCT a MDCT, que elimina eficazmente los artefactos de sombreado preservando la fidelidad anatómica y superando a los métodos anteriores con solo 10 pasos de muestreo.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Este trabajo aborda el desafío de la escasez de datos en la segmentación de imágenes médicas proponiendo un marco basado en la intercambiabilidad en lugar de la independencia e identidad distribuida (i.i.d.), el cual controla las discrepancias de características entre fondos y primeros planos para mitigar los desplazamientos de distribución y lograr un rendimiento superior al estado del arte en múltiples conjuntos de datos.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

El artículo presenta LayerT2V, un marco unificado de generación de video que, aprovechando la compresión de los modelos actuales y un nuevo conjunto de datos llamado VidLayer, produce en una sola inferencia videos completos junto con sus capas de fondo y primer plano correspondientes, garantizando una coherencia semántica y temporal superior para flujos de trabajo profesionales.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

El artículo presenta RAP, un marco unificado que utiliza transformadores de difusión de video para generar retratos parlantes de alta calidad en tiempo real mediante un mecanismo de atención híbrido y un paradigma de entrenamiento-inferencia estático-dinámico que supera las limitaciones de latencia y memoria de los métodos existentes.

Fangyu Du, Taiqing Li, Qian Qiao + 7 more2026-02-27⚡ eess

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

El artículo presenta MixCache, un marco de inferencia sin entrenamiento para modelos de difusión de video que acelera significativamente la generación mediante una estrategia de activación contextual y una decisión híbrida adaptativa que combina múltiples granularidades de caché para equilibrar velocidad y calidad.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG

← Anterior Siguiente →