cs.CV artículos | Gist.Science

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Este trabajo propone un paradigma de entrenamiento que combina la búsqueda de modos y la búsqueda de medias mediante un Transformador de Difusión Desacoplado para generar videos largos de alta fidelidad y coherencia en pocos pasos, superando la escasez de datos de larga duración al alinear la estructura narrativa global con la realismo local aprendido de un modelo maestro de videos cortos.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Este artículo presenta BSDM, un modelo de difusión innovador que detecta anomalías en imágenes hiperespectrales suprimiendo fondos complejos mediante el aprendizaje de distribuciones latentes sin necesidad de datos etiquetados, logrando así una alta generalización en diferentes dominios.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

StableMaterials es un enfoque novedoso que utiliza aprendizaje semi-supervisado y modelos de difusión latente para generar materiales PBR fotorrealistas, diversos y de alta resolución con poca dependencia de datos anotados, ofreciendo además generación rápida y sin artefactos mediante técnicas de consistencia latente y teselación.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

El artículo presenta SGIFormer, un método novedoso para la segmentación de instancias en nubes de puntos 3D que combina una inicialización de consultas guiada por semántica y un decodificador transformador intercalado mejorado geométricamente para lograr un rendimiento superior y un equilibrio entre precisión y eficiencia en escenarios a gran escala.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Este artículo presenta un método de detección de deepfakes en configuración de conjunto abierto que, mediante una mezcla de estilos de falsificación y módulos ligeros en una arquitectura ViT, logra una generalización superior en dominios desconocidos con una eficiencia de parámetros significativamente mayor que los enfoques existentes.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Este trabajo presenta un marco de aprendizaje de conceptos visuales "verdaderamente" de un solo ejemplo basado en prototipos gaussianos abstraídos que, sin depender de preentrenamiento, logra tanto clasificación como generación de nuevas variantes indistinguibles de las humanas mediante una arquitectura de baja complejidad teórica y computacional.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

El artículo presenta SplatSDF, una arquitectura innovadora que fusiona directamente los Gaussianos 3D a nivel estructural en SDF-NeRF para acelerar su convergencia y mejorar la precisión geométrica, superando a los métodos basados en pérdidas de consistencia y facilitando su implementación en sistemas robóticos prácticos.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

El artículo presenta DGGS, un marco novedoso que aborda el desafío de la eliminación de distractores en la representación 3DGS generalizable mediante un módulo de predicción de máscaras agnóstico a la escena y un marco de inferencia en dos etapas que garantiza estabilidad y precisión en la reconstrucción de vistas nuevas.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Este artículo propone un marco que permite a los modelos de visión y lenguaje operar en entornos abiertos identificando y aprendiendo incrementalmente objetos desconocidos mediante las técnicas OWEL y MSCAL, superando así las limitaciones de la detección de vocabulario abierto tradicional y logrando un rendimiento de vanguardia en benchmarks de conducción autónoma.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Este trabajo propone un método que anima bocetos a partir de descripciones textuales utilizando un modelo de difusión de texto a video preentrenado, mejorado con regularización de longitud-área para consistencia temporal y una pérdida ARAP para preservar la rigidez y la topología del dibujo, superando así a los métodos actuales.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

El artículo presenta PPT, un marco de preentrenamiento escalable que utiliza trayectorias pseudoetiquetadas generadas automáticamente a partir de detectores y rastreadores 3D existentes para mejorar la generalización y el rendimiento en la predicción de movimientos para la conducción autónoma, especialmente en escenarios con datos limitados o diversos.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

El artículo presenta IV-tuning, un método de aprendizaje por transferencia eficiente en parámetros que supera a los enfoques actuales en tareas infrarrojo-visibles al evitar el ajuste completo de modelos preentrenados, logrando así una mejor generalización y eficiencia computacional con solo un 3% de parámetros entrenables.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

El artículo presenta MomentMix, una técnica de aumento de datos que combina ForegroundMix y BackgroundMix, junto con un Decodificador Consciente de la Longitud (Length-Aware Decoder) basado en DETR, para mejorar significativamente la recuperación de momentos breves en videos y superar el estado del arte en conjuntos de datos como QVHighlights, TACoS y Charades-STA.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Este trabajo presenta JOSH, un método de optimización conjunta que reconstruye en 4D la interacción entre humanos y entornos a partir de videos monoculares del mundo real, y su variante JOSH3R, un modelo entrenado con pseudoetiquetas derivadas de JOSH que supera a otros métodos sin optimización.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

Este artículo demuestra que los purificadores adversarios no basados en difusión pueden superar a los modelos de difusión en robustez, transferibilidad y generalización de color, logrando incluso un rendimiento superior en ImageNet sin necesidad de datos adicionales más allá del conjunto de entrenamiento.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

Este trabajo presenta Dual-IPO, un paradigma de optimización iterativa dual que mejora simultáneamente un modelo de recompensa y un modelo de generación de video mediante retroalimentación mutua, logrando una mayor alineación con las preferencias humanas y una calidad de síntesis superior sin necesidad de anotaciones manuales tediosas.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

El artículo presenta RelaCtrl, un marco de generación controlada eficiente que optimiza la integración de señales de control en los Transformadores de Difusión mediante la evaluación de la relevancia de cada capa y el uso de un mezclador de barajado bidimensional, logrando un rendimiento superior con solo el 15% de los parámetros y la complejidad computacional de métodos existentes como PixArt-delta.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

Este trabajo presenta U-F²-CBM, un modelo de botella de conceptos que convierte cualquier clasificador visual congelado en un sistema interpretable sin necesidad de CLIP, etiquetas de imagen-concepto ni anotaciones manuales, logrando un rendimiento superior al estado del arte en tareas de clasificación y descripción de imágenes.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

El artículo presenta UniFuture, un modelo unificado de mundo 4D para la conducción autónoma que genera secuencias futuras de imágenes y mapas de profundidad geométricamente consistentes mediante un esquema de compartición de latentes duales y un mecanismo de interacción multiescala, superando así las limitaciones de los modelos existentes que tratan por separado la apariencia y la geometría.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

Este artículo presenta GmNet, un modelo ligero que, inspirado en el teorema de convolución y analizado desde una perspectiva de frecuencia, revisa los mecanismos de puerta para mitigar el sesgo de baja frecuencia y mejorar el rendimiento en la clasificación de imágenes.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

← Anterior Siguiente →