cs.CV artículos | Gist.Science

Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

El artículo presenta LMP, un detector de doble rama que logra un estado del arte en la detección de objetos con pocos ejemplos entre dominios al combinar la guía semántica de modelos visión-idioma con prototipos visuales aprendidos dinámicamente del dominio objetivo para capturar tanto la invariancia semántica como los detalles visuales específicos.

Wanqi Wang, Jingcai Guo, Yuxiang Cai + 1 more2026-02-24💻 cs

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

El artículo presenta HeRO, una política basada en difusión que combina geometría y semántica mediante campos jerárquicos para lograr una manipulación de objetos consciente de la pose, logrando un nuevo estado del arte en tareas desafiantes como la colocación de zapatos.

Chongyang Xu, Shen Cheng, Haipeng Li + 3 more2026-02-24💻 cs

Bayesian Lottery Ticket Hypothesis

Este artículo demuestra que la Hipótesis del Boleto de Lotería se mantiene en redes neuronales bayesianas, identificando subredes dispersas que igualan o superan la precisión original mediante estrategias de poda basadas principalmente en la magnitud y secundariamente en la desviación estándar.

Nicholas Kuhn, Arvid Weyrauch, Lars Heyen + 3 more2026-02-24🤖 cs.LG

Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation

El artículo presenta 4DSTAR, un modelo autoregresivo que utiliza propagación dinámica de estados espaciotemporales y un VQ-VAE 4D para generar objetos 4D de alta calidad con consistencia temporal y espacial, superando las limitaciones de los métodos basados en difusión.

Liying Yang, Jialun Liu, Jiakui Hu + 5 more2026-02-24💻 cs

IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation

El artículo presenta IDperturb, una estrategia de muestreo basada en la perturbación angular de incrustaciones de identidad que mejora la diversidad intraclase en la generación de rostros sintéticos, logrando así un mejor rendimiento en sistemas de reconocimiento facial sin modificar los modelos generativos subyacentes.

Fadi Boutros, Eduarda Caldeira, Tahar Chettaoui + 1 more2026-02-24💻 cs

CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification

El artículo presenta CLAP, un autoencoder convolucional ligero que utiliza capas de convolución separable y un mecanismo de compuerta sigmoidal para clasificar enfermedades de las plantas con alta precisión y bajo costo computacional en condiciones de campo reales.

Asish Bera, Subhajit Roy, Sudiptendu Banerjee2026-02-24💻 cs

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

El artículo presenta IFA-Net, un marco innovador que detecta y localiza con precisión imágenes generadas por IA modelando la "realidad" a través de un autoencoder enmascarado congelado y un proceso iterativo de dos etapas que amplifica las desviaciones en la reconstrucción de regiones manipuladas, superando significativamente a los métodos existentes en benchmarks de inpainting.

Jiangling Zhang, Shuxuan Gao, Bofan Liu + 4 more2026-02-24💻 cs

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Este trabajo presenta un marco de cuantización post-entrenamiento conjunta para Vision Transformers que, mediante la optimización global sin datos etiquetados y el uso de una estrategia de generación de datos basada en Stable Diffusion Turbo guiada por prompts aprendidos, logra un rendimiento de vanguardia en configuraciones de bits extremadamente bajos para modelos como ViT, DeiT y Swin-T.

Shile Li, Markus Karmann, Onay Urfalioglu2026-02-24💻 cs

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

El artículo presenta TIACam, un marco de aprendizaje de características invariantes anclado en texto con auto-aumento que logra una marca de agua cero robusta frente a la recaptura mediante cámaras al integrar un aumentador automático diferenciable, alineación adversaria multimodal y una cabeza de marca de agua que vincula mensajes binarios en el espacio de características sin modificar los píxeles de la imagen.

Abdullah All Tanvir, Agnibh Dasgupta, Xin Zhong2026-02-24⚡ eess

Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions

Este artículo presenta MM2D3D, un modelo de segmentación multimodal que mejora la precisión de la segmentación 3D de LiDAR generando predicciones 2D densas y exactas mediante el uso de imágenes de cámara para guiar el filtrado y la supervisión cruzada dinámica, superando así la escasez inherente de los mapas de LiDAR proyectados.

Xiaoyu Dong, Tiankui Xian, Wanshui Gan + 1 more2026-02-24💻 cs

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

El artículo presenta SLD-Font, un modelo de difusión que logra una disociación a nivel estructural entre contenido y estilo para la generación de fuentes chinas con pocos ejemplos, mejorando la fidelidad del estilo y la precisión del contenido mediante el uso de plantillas de estructura SimSun, mecanismos de atención cruzada con CLIP, un módulo de eliminación de ruido de fondo y una estrategia de ajuste fino eficiente en parámetros.

Jie Li, Suorong Yang, Jian Zhao + 1 more2026-02-24🤖 cs.AI

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

El artículo presenta FOCA, un marco basado en modelos de lenguaje grandes multimodales que integra características de los dominios espacial y frecuencial para mejorar la detección, localización y explicación interpretable de manipulaciones de imágenes, respaldado por el nuevo conjunto de datos FSE-Set.

Zhou Liu, Tonghua Su, Hongshi Zhang + 4 more2026-02-24🤖 cs.AI

Characterization of Residual Morphological Substructure Using Supervised and Unsupervised Deep Learning

Este estudio evalúa el uso de redes neuronales convolucionales supervisadas y autoencoders variacionales no supervisados para caracterizar subestructuras residuales en imágenes de galaxias del sondeo CANDELS, concluyendo que el enfoque supervisado logra distinguir eficazmente entre subestructuras de diferente intensidad, mientras que el no supervisado carece de poder discriminatorio claro.

Kameswara Bharadwaj Mantha, Daniel H. McIntosh, Cody Ciaschi + 9 more2026-02-24🔭 astro-ph

PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

El artículo presenta PhysConvex, un campo de radiación dinámica 3D basado en física que utiliza primitivas convexas gobernadas por mecánica de medios continuos para unificar la reconstrucción visual de alta fidelidad y la simulación física de escenas deformables, superando las limitaciones de los métodos existentes en la captura de deformaciones complejas y consistencia física.

Dan Wang, Xinrui Cui, Serge Belongie + 1 more2026-02-24💻 cs

Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

Este trabajo identifica la naturaleza no estacionaria de las actualizaciones del codificador como la causa fundamental del colapso del código en la cuantización vectorial y propone dos nuevos métodos, NSVQ y TransVQ, que logran una utilización casi completa del código y una calidad de reconstrucción superior en modelos generativos.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24💻 cs

PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

El artículo presenta PrivacyBench, un marco de referencia que demuestra cómo la combinación de técnicas de privacidad en sistemas de visión híbridos puede generar fallos críticos y costos elevados, ofreciendo una plataforma sistemática para evaluar y guiar el diseño de despliegues robustos antes de su implementación.

Nnaemeka Obiefuna, Samuel Oyeneye, Similoluwa Odunaiya + 2 more2026-02-24💻 cs

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Este artículo presenta SCHEMA, una metodología de ingeniería de prompts estructurada y validada empíricamente para el modelo nativo multimodal Google Gemini 3 Pro Image, que mediante un sistema modular de tres niveles y componentes específicos logra un control direccional superior (hasta un 95%) y altas tasas de cumplimiento en la generación de imágenes profesionales.

Luca Cazzaniga2026-02-24💻 cs

PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

El artículo presenta PCA-VAE, un modelo generativo que reemplaza la cuantización vectorial tradicional con un cuello de botella de PCA diferenciable y sin código, logrando una mayor calidad de reconstrucción, una eficiencia de bits superior y latentes semánticamente interpretables sin sufrir colapso de código.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24🤖 cs.LG

Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

Este trabajo propone la Ajuste de Haz Marginalizado (MBA), un método que integra estimaciones de profundidad monoculares densas en la estructura a partir del movimiento para mitigar sus errores y lograr resultados competitivos en tareas de localización y reconstrucción 3D a gran escala.

Shengjie Zhu, Ahmed Abdelkader, Mark J. Matthews + 2 more2026-02-24💻 cs

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

DeepInterestGR es un marco de recomendación generativa que supera las limitaciones de los métodos actuales al extraer intereses profundos y multimodales mediante LLMs, etiquetarlos con recompensas y codificarlos en identificadores semánticos para optimizar un modelo de generación mediante aprendizaje por refuerzo, logrando así un rendimiento superior en benchmarks de recomendación.

Yangchen Zeng2026-02-24🤖 cs.LG

← Anterior Siguiente →