cs.CV artículos | Gist.Science

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabajo aborda el problema de la sobreoptimización de recompensas en la alineación de modelos de difusión proponiendo TDPO-R, un algoritmo que mitiga este fenómeno al explotar el sesgo inductivo temporal inherente y regularizar el sesgo de primacía mediante el reinicio de neuronas activas en el modelo crítico.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

El artículo presenta Uni-ISP, un pipeline innovador que unifica el aprendizaje de procesadores de señal de imagen (ISP) para diversas cámaras móviles mediante incrustaciones específicas del dispositivo y un esquema de entrenamiento especial, logrando mayor precisión, adaptabilidad y habilitando nuevas aplicaciones, todo respaldado por un nuevo conjunto de datos real de 4K llamado FiveCam.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

El artículo presenta R2GenCSR, un marco eficiente para la generación de informes radiológicos que utiliza Mamba como columna vertebral visual de complejidad lineal y recupera información contextual de muestras relacionadas para potenciar la capacidad de los modelos de lenguaje grande (LLM) en la creación de informes médicos de alta calidad.

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

Este artículo presenta Shuffle Mamba, un marco novedoso para la fusión de imágenes multimodales que introduce una estrategia de escaneo aleatorio inspirada en Bayes para eliminar los sesgos de las estrategias fijas, garantizando así un campo receptivo global imparcial y una interacción robusta entre modalidades.

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este trabajo presenta el primer método para el olvido de etiquetas en el Aprendizaje Federado Vertical, que utiliza una mezcla de variedades a nivel de representación y optimización basada en gradientes para eliminar eficazmente la información de las etiquetas sensibles sin revelar datos ni comprometer el rendimiento en los datos retenidos.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

Este artículo presenta Stereo-Talker, un sistema novedoso de síntesis de video 3D impulsado por audio que genera videos de personas parlantes fotorrealistas y con sincronización labial precisa mediante un enfoque de dos etapas que integra priores de modelos de lenguaje grande para la diversidad de gestos y un mecanismo de mezcla de expertos (MoE) guiado para mejorar la estabilidad de la renderización y el control continuo de la vista.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

Este artículo presenta SDPO, un nuevo marco de aprendizaje por refuerzo que alinea modelos de difusión de pocos pasos con objetivos específicos mediante un muestreo de trayectorias de doble estado y un aprendizaje de diferencias de recompensa densas para lograr actualizaciones de política más frecuentes y granulares.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

El paper presenta TREND, un método de aprendizaje no supervisado de representaciones 3D para percepción LiDAR que, a diferencia de enfoques previos, aprovecha la secuencia temporal mediante un esquema de incrustación recurrente y un campo neuronal temporal para predecir observaciones futuras y mejorar significativamente tareas de detección de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

El artículo presenta CLAP, un método de pre-entrenamiento no supervisado que combina muestreo de curvatura y aprendizaje de prototipos para aprender representaciones 3D fusionadas de imágenes y nubes de puntos, logrando mejoras significativas en tareas de percepción 3D en comparación con los métodos anteriores.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artículo presenta GenVidBench, el conjunto de datos más grande hasta la fecha para la detección de videos generados por IA, el cual incluye 6,78 millones de videos creados por 11 generadores de vanguardia y diseñado con estrategias de origen y generador cruzados para facilitar el desarrollo de modelos de detección generalizados y efectivos.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artículo propone un método de constancia de color multi-iluminante que utiliza una red neuronal convolucional de tres ramas para estimar mapas de iluminación a múltiples escalas y fusionarlos mediante un módulo de atención, logrando un rendimiento superior al estado del arte al abordar las limitaciones de los enfoques existentes que ignoran el impacto de las escalas de la imagen.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

El artículo presenta DSV, un método que acelera el entrenamiento de modelos DiT para video mediante la explotación de la dispersión dinámica de la atención mediante aproximación de bajo rango y paralelismo de contexto híbrido, logrando un aumento de hasta 3,02 veces en el rendimiento sin sacrificar la calidad.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Este artículo propone un método que inserta marcas de agua robustas durante la inferencia de modelos generativos, como los de difusión, para identificar el contenido sintético y sus usuarios sin necesidad de reentrenar el modelo, garantizando resistencia ante perturbaciones y ataques de eliminación.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

El método JiSAM alivia la carga de etiquetado y aborda los casos extremos en la conducción autónoma mediante una estrategia de aumento de datos y alineación que permite lograr un rendimiento comparable al de modelos entrenados con todos los datos reales utilizando solo el 2,5% de ellos junto con datos sintéticos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

El modelo ARPG introduce un marco de decodificación desacoplado que permite la generación paralela aleatoria de imágenes, superando las limitaciones de eficiencia y generalización de los enfoques autoregresivos convencionales para lograr una inferencia 30 veces más rápida y un consumo de memoria 75% menor en la generación de imágenes de alta calidad.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabajo propone un método novedoso para generar datos sintéticos de escenas 3D semánticas realistas sin depender de proyecciones ni modelos desacoplados, demostrando que el uso de estos datos generados mejora el rendimiento de las redes de segmentación semántica y reduce la necesidad de anotación manual.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Este artículo presenta TextCrafter, un marco de generación de texto visual complejo que integra mecanismos de aislamiento y atención selectiva mediante aprendizaje por refuerzo para lograr un rendimiento superior en la generación de texto preciso y sin alucinaciones, superando a modelos industriales a pesar de utilizar recursos computacionales significativamente menores.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

El artículo presenta KARMMA, un marco de destilación de conocimiento multimodal para el reconocimiento de acciones egocéntricas que garantiza robustez ante la falta de modalidades y eficiencia computacional sin requerir alineación de modalidades durante el entrenamiento ni la inferencia.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

Los autores investigan qué parámetros de generación procedural producen los mejores datos sintéticos para la coincidencia estereoscópica en cero disparos, creando un nuevo conjunto de datos de código abierto que supera a los existentes y es competitivo con los métodos más avanzados.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn es un nuevo método para la síntesis de imágenes médicas multimodales que combina un codificador basado en SAM2, un módulo de muestreo residual jerárquico y una estrategia de escaneo en espiral de Fermat dentro de una arquitectura Mamba bidireccional para lograr una consistencia anatómica global y detalles locales de alta fidelidad, superando a los métodos actuales en métricas de calidad y utilidad clínica.

Feng Yuan2026-03-02⚡ eess

← Anterior Siguiente →