cs.CV artículos | Gist.Science

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

El artículo presenta RoboCurate, un marco innovador para la generación de datos sintéticos en robótica que valida la calidad de las acciones mediante la comparación con simulaciones y aumenta la diversidad de observaciones, logrando mejoras significativas en las tasas de éxito frente al uso exclusivo de datos reales.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Los autores presentan GeoCode, un nuevo conjunto de datos multimodal de geometría generado sintéticamente que utiliza código de trazado para alinear la comprensión visual con el razonamiento simbólico, logrando mejoras significativas en el rendimiento de los modelos en diversas tareas de geometría.

Haobo Lin, Tianyi Bai, Chen Chen + 4 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Este estudio presenta un benchmark que evalúa diez modelos fundacionales para la segmentación semántica en patología computacional, demostrando que el modelo CONCH supera a los demás y que la combinación de características de múltiples modelos mejora significativamente el rendimiento general.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

El paper presenta EditedID, un marco de alineación, desentrelado y entrelado sin entrenamiento que supera las limitaciones actuales de los modelos de edición multimodal al garantizar una restauración facial robusta y consistente con la identidad original y los elementos editados mediante estrategias de mezcla adaptativa, resolución híbrida y mecanismos de compuerta atencional.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

El artículo presenta Person2Drive, un marco integral y un benchmark de código abierto que aborda los desafíos de la conducción autónoma personalizada de extremo a extremo mediante la generación de datos diversificados, métricas cuantitativas para evaluar estilos de conducción individuales y un modelo de recompensa que adapta los sistemas a los comportamientos específicos de cada usuario.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

El artículo presenta TAG, un marco de visión-lingüístico que mejora el reconocimiento de expresiones faciales y reduce las alucinaciones al forzar que el razonamiento del modelo se base en unidades de acción (AU) verificables mediante ajuste fino y aprendizaje por refuerzo.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI

A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

Este artículo presenta GeoLink-UV, un producto de mapeo de alta resolución que identifica y delimita las aldeas urbanas en 342 ciudades de China mediante modelos fundamentales y datos multifuente, proporcionando una base geoespacial validada para el monitoreo de asentamientos informales y la planificación de renovación urbana.

Lubin Bai, Sheng Xiao, Ziyu Yin + 4 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Este trabajo propone ZS-MIL, un método que utiliza las incrustaciones de texto de modelos de visión-lingüística preentrenados para inicializar los clasificadores en el aprendizaje de múltiples instancias, mejorando así la adaptación con pocos ejemplos en la clasificación de imágenes de histopatología en comparación con las inicializaciones aleatorias.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Este trabajo propone un método de alineación de preferencias para modelos de difusión que, inspirado en la guía libre de clasificadores, decopla el aprendizaje en módulos positivos y negativos para generar una señal de "guía contrastiva" en tiempo de inferencia, mejorando así la alineación y la generalización sin necesidad de reentrenar el modelo base.

Zhou Jiang, Yandong Wen, Zhen Liu2026-02-24💻 cs

Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

El artículo presenta LMP, un detector de doble rama que logra un estado del arte en la detección de objetos con pocos ejemplos entre dominios al combinar la guía semántica de modelos visión-idioma con prototipos visuales aprendidos dinámicamente del dominio objetivo para capturar tanto la invariancia semántica como los detalles visuales específicos.

Wanqi Wang, Jingcai Guo, Yuxiang Cai + 1 more2026-02-24💻 cs

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

El artículo presenta HeRO, una política basada en difusión que combina geometría y semántica mediante campos jerárquicos para lograr una manipulación de objetos consciente de la pose, logrando un nuevo estado del arte en tareas desafiantes como la colocación de zapatos.

Chongyang Xu, Shen Cheng, Haipeng Li + 3 more2026-02-24💻 cs

Bayesian Lottery Ticket Hypothesis

Este artículo demuestra que la Hipótesis del Boleto de Lotería se mantiene en redes neuronales bayesianas, identificando subredes dispersas que igualan o superan la precisión original mediante estrategias de poda basadas principalmente en la magnitud y secundariamente en la desviación estándar.

Nicholas Kuhn, Arvid Weyrauch, Lars Heyen + 3 more2026-02-24🤖 cs.LG

Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation

El artículo presenta 4DSTAR, un modelo autoregresivo que utiliza propagación dinámica de estados espaciotemporales y un VQ-VAE 4D para generar objetos 4D de alta calidad con consistencia temporal y espacial, superando las limitaciones de los métodos basados en difusión.

Liying Yang, Jialun Liu, Jiakui Hu + 5 more2026-02-24💻 cs

IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation

El artículo presenta IDperturb, una estrategia de muestreo basada en la perturbación angular de incrustaciones de identidad que mejora la diversidad intraclase en la generación de rostros sintéticos, logrando así un mejor rendimiento en sistemas de reconocimiento facial sin modificar los modelos generativos subyacentes.

Fadi Boutros, Eduarda Caldeira, Tahar Chettaoui + 1 more2026-02-24💻 cs

CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification

El artículo presenta CLAP, un autoencoder convolucional ligero que utiliza capas de convolución separable y un mecanismo de compuerta sigmoidal para clasificar enfermedades de las plantas con alta precisión y bajo costo computacional en condiciones de campo reales.

Asish Bera, Subhajit Roy, Sudiptendu Banerjee2026-02-24💻 cs

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

El artículo presenta IFA-Net, un marco innovador que detecta y localiza con precisión imágenes generadas por IA modelando la "realidad" a través de un autoencoder enmascarado congelado y un proceso iterativo de dos etapas que amplifica las desviaciones en la reconstrucción de regiones manipuladas, superando significativamente a los métodos existentes en benchmarks de inpainting.

Jiangling Zhang, Shuxuan Gao, Bofan Liu + 4 more2026-02-24💻 cs

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Este trabajo presenta un marco de cuantización post-entrenamiento conjunta para Vision Transformers que, mediante la optimización global sin datos etiquetados y el uso de una estrategia de generación de datos basada en Stable Diffusion Turbo guiada por prompts aprendidos, logra un rendimiento de vanguardia en configuraciones de bits extremadamente bajos para modelos como ViT, DeiT y Swin-T.

Shile Li, Markus Karmann, Onay Urfalioglu2026-02-24💻 cs

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

El artículo presenta TIACam, un marco de aprendizaje de características invariantes anclado en texto con auto-aumento que logra una marca de agua cero robusta frente a la recaptura mediante cámaras al integrar un aumentador automático diferenciable, alineación adversaria multimodal y una cabeza de marca de agua que vincula mensajes binarios en el espacio de características sin modificar los píxeles de la imagen.

Abdullah All Tanvir, Agnibh Dasgupta, Xin Zhong2026-02-24⚡ eess

Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions

Este artículo presenta MM2D3D, un modelo de segmentación multimodal que mejora la precisión de la segmentación 3D de LiDAR generando predicciones 2D densas y exactas mediante el uso de imágenes de cámara para guiar el filtrado y la supervisión cruzada dinámica, superando así la escasez inherente de los mapas de LiDAR proyectados.

Xiaoyu Dong, Tiankui Xian, Wanshui Gan + 1 more2026-02-24💻 cs

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

El artículo presenta SLD-Font, un modelo de difusión que logra una disociación a nivel estructural entre contenido y estilo para la generación de fuentes chinas con pocos ejemplos, mejorando la fidelidad del estilo y la precisión del contenido mediante el uso de plantillas de estructura SimSun, mecanismos de atención cruzada con CLIP, un módulo de eliminación de ruido de fondo y una estrategia de ajuste fino eficiente en parámetros.

Jie Li, Suorong Yang, Jian Zhao + 1 more2026-02-24🤖 cs.AI

← Anterior Siguiente →