cs.CV artículos | Gist.Science

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

Este artículo presenta SDPO, un nuevo marco de aprendizaje por refuerzo que alinea modelos de difusión de pocos pasos con objetivos específicos mediante un muestreo de trayectorias de doble estado y un aprendizaje de diferencias de recompensa densas para lograr actualizaciones de política más frecuentes y granulares.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

El paper presenta TREND, un método de aprendizaje no supervisado de representaciones 3D para percepción LiDAR que, a diferencia de enfoques previos, aprovecha la secuencia temporal mediante un esquema de incrustación recurrente y un campo neuronal temporal para predecir observaciones futuras y mejorar significativamente tareas de detección de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

El artículo presenta CLAP, un método de pre-entrenamiento no supervisado que combina muestreo de curvatura y aprendizaje de prototipos para aprender representaciones 3D fusionadas de imágenes y nubes de puntos, logrando mejoras significativas en tareas de percepción 3D en comparación con los métodos anteriores.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artículo presenta GenVidBench, el conjunto de datos más grande hasta la fecha para la detección de videos generados por IA, el cual incluye 6,78 millones de videos creados por 11 generadores de vanguardia y diseñado con estrategias de origen y generador cruzados para facilitar el desarrollo de modelos de detección generalizados y efectivos.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artículo propone un método de constancia de color multi-iluminante que utiliza una red neuronal convolucional de tres ramas para estimar mapas de iluminación a múltiples escalas y fusionarlos mediante un módulo de atención, logrando un rendimiento superior al estado del arte al abordar las limitaciones de los enfoques existentes que ignoran el impacto de las escalas de la imagen.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

El artículo presenta DSV, un método que acelera el entrenamiento de modelos DiT para video mediante la explotación de la dispersión dinámica de la atención mediante aproximación de bajo rango y paralelismo de contexto híbrido, logrando un aumento de hasta 3,02 veces en el rendimiento sin sacrificar la calidad.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Este artículo propone un método que inserta marcas de agua robustas durante la inferencia de modelos generativos, como los de difusión, para identificar el contenido sintético y sus usuarios sin necesidad de reentrenar el modelo, garantizando resistencia ante perturbaciones y ataques de eliminación.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

El método JiSAM alivia la carga de etiquetado y aborda los casos extremos en la conducción autónoma mediante una estrategia de aumento de datos y alineación que permite lograr un rendimiento comparable al de modelos entrenados con todos los datos reales utilizando solo el 2,5% de ellos junto con datos sintéticos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

El modelo ARPG introduce un marco de decodificación desacoplado que permite la generación paralela aleatoria de imágenes, superando las limitaciones de eficiencia y generalización de los enfoques autoregresivos convencionales para lograr una inferencia 30 veces más rápida y un consumo de memoria 75% menor en la generación de imágenes de alta calidad.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabajo propone un método novedoso para generar datos sintéticos de escenas 3D semánticas realistas sin depender de proyecciones ni modelos desacoplados, demostrando que el uso de estos datos generados mejora el rendimiento de las redes de segmentación semántica y reduce la necesidad de anotación manual.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Este artículo presenta TextCrafter, un marco de generación de texto visual complejo que integra mecanismos de aislamiento y atención selectiva mediante aprendizaje por refuerzo para lograr un rendimiento superior en la generación de texto preciso y sin alucinaciones, superando a modelos industriales a pesar de utilizar recursos computacionales significativamente menores.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

El artículo presenta KARMMA, un marco de destilación de conocimiento multimodal para el reconocimiento de acciones egocéntricas que garantiza robustez ante la falta de modalidades y eficiencia computacional sin requerir alineación de modalidades durante el entrenamiento ni la inferencia.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

Los autores investigan qué parámetros de generación procedural producen los mejores datos sintéticos para la coincidencia estereoscópica en cero disparos, creando un nuevo conjunto de datos de código abierto que supera a los existentes y es competitivo con los métodos más avanzados.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn es un nuevo método para la síntesis de imágenes médicas multimodales que combina un codificador basado en SAM2, un módulo de muestreo residual jerárquico y una estrategia de escaneo en espiral de Fermat dentro de una arquitectura Mamba bidireccional para lograr una consistencia anatómica global y detalles locales de alta fidelidad, superando a los métodos actuales en métricas de calidad y utilidad clínica.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Este artículo examina la integración de métodos basados en grafos para el análisis de series temporales de imágenes satelitales, presentando una metodología versátil, una revisión exhaustiva y casos de estudio que demuestran su eficacia en tareas como el mapeo de cobertura terrestre y la previsión de recursos hídricos.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

El artículo presenta MIRAGE, un marco eficiente para la restauración de imágenes agnóstico a la degradación que combina una descomposición funcional por canales y una regularización de variedad para lograr un equilibrio superior entre rendimiento y eficiencia en diversos escenarios de corrupción.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

El artículo presenta OmniFall, un conjunto de datos unificado que combina grabaciones escenificadas, sintéticas y del mundo real con anotaciones densas para establecer un nuevo estándar en la detección de caídas robusta y que preserve la privacidad.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

Cora es un nuevo marco de edición de imágenes basado en difusión en pocos pasos que utiliza corrección de ruido consciente de la correspondencia y mapas de atención interpolados para lograr deformaciones no rígidas y modificaciones de objetos precisas, manteniendo la estructura, la textura y la identidad de la imagen original mejor que los métodos existentes.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

Este artículo presenta ECAM, un módulo basado en aprendizaje contrastivo que se integra en modelos de predicción de trayectorias para mejorar significativamente la evitación de colisiones con obstáculos ambientales, reduciendo la tasa de colisiones en un 40-50% en los conjuntos de datos ETH/UCY.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

El artículo presenta LLM-EMF, un enfoque novedoso que mejora la recomendación secuencial entre dominios mediante la fusión de datos multimodales enriquecidos con conocimiento de modelos de lenguaje grandes (LLM) y un mecanismo de atención múltiple, demostrando un rendimiento superior en cuatro conjuntos de datos de comercio electrónico.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

← Anterior Siguiente →