cs.CV artículos | Gist.Science

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este trabajo propone un método de Aprendizaje Compatible hacia Atrás (BCL) que relaja las estrictas restricciones de alineación mediante la introducción de perturbaciones en los prototipos de características antiguas, preservando así la capacidad discriminativa del nuevo modelo sin necesidad de costosos procesos de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabajo presenta un método unificado para la reconstrucción robusta de dos manos a partir de imágenes monoculares que combina la alineación de priores estructurales heterogéneos de modelos fundacionales en 2D con un modelo de difusión libre de penetración en 3D para lograr interacciones físicamente creíbles y resistentes a oclusiones.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Este trabajo propone un modelo de completado de instancias basado en nubes de puntos que integra restricciones de escena mediante un mecanismo de atención cruzada para recuperar geometrías faltantes con mayor fidelidad y plausibilidad, validado mediante un nuevo dataset llamado ScanWCF.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

El artículo presenta LEL, un marco de aprendizaje conjunto con restricciones de continuidad de Lipschitz que mejora la estabilidad, precisión y robustez del reconocimiento de emociones basado en EEG intra-sujeto, logrando resultados superiores en tres conjuntos de datos públicos.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Este artículo presenta un marco de comunicación orientado a tareas que utiliza un codificador O-VIB con determinación automática de relevancia y restricciones ortogonales para extraer características multivista compactas y lograr una localización visual precisa en entornos urbanos con limitaciones de ancho de banda y recursos.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

El artículo presenta DeepSparse, el primer modelo fundacional para la reconstrucción de CBCT de vistas escasas, que utiliza la arquitectura DiCE y el marco HyViP para lograr una alta calidad de imagen con menor radiación y una mejor generalización que los métodos existentes.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

El artículo presenta M³CAD, un benchmark integral multimodal con 204 secuencias diseñado para impulsar la investigación en conducción autónoma cooperativa genérica y multi-tarea, incluyendo una nueva estrategia de fusión que equilibra la eficiencia de comunicación con la precisión de la percepción.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

El artículo presenta FoldNet, un marco que genera un conjunto de datos sintético basado en keypoints y utiliza el algoritmo KG-DAgger para entrenar políticas de aprendizaje por imitación en bucle cerrado que logran un 75% de éxito en tareas reales de doblado de prendas.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft es un marco pionero que tokeniza secuencias de movimiento 3D en tokens de movimiento 4D para animar personajes arbitrarios, superando las limitaciones de los métodos basados en imágenes 2D mediante una generalización cero-shot superior y un control más flexible en entornos complejos.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Los autores proponen un marco unificado de meta-aprendizaje profundo basado en la desenrolladura de algoritmos de optimización convergente que mejora significativamente la reconstrucción de resonancia magnética acelerada y la síntesis de modalidades cruzadas, logrando una adaptación rápida y generalizable a patrones de muestreo no vistos y cambios de dominio mediante la fusión de fidelidad de datos y regularización no convexa.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

El artículo presenta Vid2World, un enfoque general que transforma modelos de difusión de video preentrenados en modelos de mundo interactivos mediante la causalización de su arquitectura y un mecanismo de guía de acciones, permitiendo así la generación autoregresiva de alta fidelidad para la toma de decisiones en entornos complejos.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Este artículo presenta un marco innovador de "solver en el bucle" que combina un prior generativo 3D preentrenado con un solver riguroso de ecuaciones integrales de frontera para reconstruir interfaces complejas en tomografía de impedancia eléctrica, logrando una alta precisión geométrica y eficiencia de datos al imponer las leyes físicas como restricciones estrictas en lugar de penalizaciones suaves.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artículo presenta GLMask, un enfoque de aprendizaje semi-autosupervisado que transforma la segmentación semántica en segmentación de instancias con mínima anotación manual, logrando un rendimiento superior al estado del arte en la detección de espigas de trigo y en el conjunto de datos COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudio presenta un marco de aprendizaje profundo basado en una GAN penalizada por varianza que transforma imágenes de tinción H&E en imágenes de inmunohistoquímica (IHC) de alta fidelidad para la evaluación precisa de HER2 en cáncer de mama, superando a los modelos existentes en métricas de calidad y ofreciendo una alternativa rentable y escalable a los diagnósticos tradicionales.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

El artículo presenta LINO UniPS, un enfoque unificado para la estereofotometría universal que logra una representación de características desacoplada mediante tokens de registro de luz y atención entrelazada, preserva los detalles geométricos de alta frecuencia con una arquitectura de doble rama basada en wavelets, y se entrena en el nuevo dataset PS-Verse para alcanzar resultados de vanguardia.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artículo presenta un marco novedoso de cascada guiado por modelos de lenguaje visuales (VLM) que utiliza características derivadas del VLM como prompts explícitos para el modelo Segment Anything (SAM) y emplea la salida de segmentación como un prior espacial suave, logrando así una segmentación y clasificación más precisas y eficientes de objetos camuflados en escenarios de vocabulario abierto.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

El artículo presenta LD-RPS, un enfoque unificado y sin datos de entrenamiento para la restauración de imágenes que utiliza muestreo recurrente de posterior en un modelo de difusión latente preentrenado, potenciado por un modelo de comprensión multimodal para lograr resultados superiores a los métodos actuales en diversas degradaciones.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este estudio demuestra que adoptar una dieta visual de desarrollo inspirada en la maduración humana permite crear sistemas de visión artificial más robustos, que dependen principalmente de la forma en lugar de la textura y superan el estado del arte en reconocimiento de formas abstractas y resistencia a perturbaciones.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

← Anterior Siguiente →