cs.CV artículos | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

El artículo presenta FedEU, un marco de optimización federada que utiliza la incertidumbre evidencial y la adaptación personalizada de características para mejorar la segmentación de imágenes de teledetección mediante el ajuste fino de modelos fundacionales, logrando una agregación global más robusta y fiable en entornos heterogéneos.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

El artículo presenta EVLF, un método de fusión temprana visión-idioma que alinea las representaciones textuales y visuales en la etapa inicial de la generación para corregir la dominancia semántica excesiva en la destilación de conjuntos de datos basada en difusión, logrando así datos sintéticos más fieles y precisos.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Este artículo propone una red de desacoplamiento y recoplamiento multimodal que separa las características BEV de LiDAR y cámara en componentes invariantes y específicos para recuperar información robusta mediante expertos especializados, logrando así una detección 3D superior tanto en datos limpios como corruptos.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

El artículo presenta RobustSCI, un marco pionero que transforma la imagen compresiva de instantáneas (SCI) de video de una simple reconstrucción a una restauración robusta capaz de recuperar escenas originales a partir de mediciones degradadas por desenfoque de movimiento y baja iluminación, mediante un nuevo bloque de red y un benchmark a gran escala.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

El paper presenta RayD3D, un método que mejora la robustez de la detección 3D multi-vista al transferir conocimiento de profundidad específicamente a lo largo del rayo óptico mediante dos módulos de destilación, eliminando así la interferencia de información irrelevante de los datos LiDAR y superando a los modelos existentes en escenarios con corrupción de datos.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

El documento presenta DocCogito, un marco unificado que alinea la percepción global del diseño con un razonamiento estructurado y fundamentado en regiones visuales mediante una Cadena Visual-Semántica, logrando resultados de vanguardia en múltiples benchmarks de comprensión de documentos.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

Este artículo presenta AMR-CCR, un marco de recuperación modular anclada diseñado para el reconocimiento continuo de caracteres chinos antiguos que aborda el crecimiento incremental de clases y la diversidad estilística mediante un diccionario multimodal y un módulo de inyección condicionado al guión, respaldado por el nuevo benchmark EvoCON.

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

Este trabajo propone un marco de difusión latente esquelética que integra priores estructurales y un nuevo conjunto de datos médico (MedSDF) para generar formas anatómicas de alta fidelidad con mayor eficiencia computacional que los métodos existentes.

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Este artículo establece una conexión precisa entre los modelos de deriva y los basados en puntuación, demostrando que la deriva con núcleo gaussiano equivale a un objetivo de coincidencia de puntuaciones en distribuciones suavizadas y proporcionando un marco unificado que explica su relación con métodos como DMD y su validez en diversos regímenes.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

El artículo presenta EvolveReason, un paradigma de razonamiento autoevolutivo que combina un conjunto de datos de pensamiento encadenado, la captura de distribuciones latentes de falsificaciones y una estrategia de exploración mediante aprendizaje por refuerzo para mejorar la precisión, la explicabilidad y la reducción de alucinaciones en la identificación de deepfakes faciales.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Este trabajo presenta SketchGraphNet, una arquitectura híbrida de grafos que combina paso de mensajes local con un mecanismo de atención global eficiente en memoria para el reconocimiento de bocetos a gran escala, y evalúa su rendimiento en un nuevo benchmark de 3,44 millones de grafos, logrando una alta precisión y reduciendo significativamente el uso de memoria y tiempo de entrenamiento en comparación con métodos anteriores.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

El paper presenta ACCURATE, un marco de reconstrucción 3D robusto que combina redes neuronales de segmentación con un algoritmo de optimización geométrica para lograr una precisión superior a 1.0 mm en la reconstrucción de cuerpos continuos delgados y arbitrariamente deformables bajo condiciones de ruido y oclusión.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Este trabajo propone un marco geométrico que recupera la escala métrica absoluta de imágenes de UAV monocular utilizando vehículos pequeños como anclajes semánticos y un modelo de proyección estereoscópica desacoplado, mejorando así la robustez de la geo-localización cruzada entre UAV y satélite al corregir la desalineación de escala en escenarios reales.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

El artículo presenta UniLongGen, una estrategia de inferencia sin entrenamiento que mejora la generación de imágenes interleaved a largo plazo mediante la curación dinámica del contexto para eliminar señales visuales interferentes que degradan la calidad de la generación.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

El artículo presenta CONSTANT, un nuevo modelo de difusión para la generación de escritura a mano en un solo disparo que utiliza cuantización consciente del estilo y mejora de contraste de parches para capturar con precisión las características únicas de un escritor a partir de una sola imagen de referencia, superando a los métodos actuales en diversos idiomas.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

El artículo presenta DreamSAC, un marco que combina una estrategia de exploración basada en simetrías con un modelo de mundo hamiltoniano para aprender invariancias físicas y lograr una generalización extrapolativa superior en simulaciones físicas 3D.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive es un marco de trabajo feed-forward que adapta el modelo fundacional VGGT mediante cabezales de predicción híbridos y una estrategia de composición estático-dinámica para generar rápidamente representaciones 4D de alta fidelidad de escenas de conducción autónoma, superando a los métodos existentes en velocidad y calidad de síntesis de nuevas vistas.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Este artículo presenta un marco de inferencia activa para el reconocimiento de microgestos que utiliza el Muestreo Temporal guiado por Energía Libre Esperada y el Aprendizaje Adaptativo para superar los desafíos de variabilidad, ruido y escasez de datos, logrando mejoras consistentes en el conjunto de datos SMG.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

El artículo presenta PureCC, un método de personalización de conceptos texto-a-imagen que utiliza un objetivo de aprendizaje desacoplado y una escala de guía adaptativa para lograr una alta fidelidad en la generación de nuevos conceptos sin comprometer el comportamiento y las capacidades originales del modelo.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Brain-WM es un modelo de mundo pionero para el glioblastoma que utiliza una arquitectura novedosa de mezcla de transformadores en forma de Y para unificar la predicción de tratamientos y la generación de imágenes de resonancia magnética futuras, capturando así la dinámica coevolutiva entre el tumor y la intervención terapéutica para optimizar los resultados clínicos.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

← Anterior Siguiente →