cs.CV artículos | Gist.Science

Effective and Efficient Masked Image Generation Models

El artículo presenta eMIGM, un modelo unificado de generación de imágenes enmascaradas que combina las ventajas de los modelos de difusión y enmascarados para lograr un rendimiento superior en la generación de imágenes de ImageNet con una mayor eficiencia computacional en comparación con los modelos más avanzados.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

El artículo presenta SPEED, un método eficiente que elimina conceptos de modelos de difusión texto-a-imagen editando directamente sus parámetros dentro de un espacio nulo, lo que permite borrar hasta 100 conceptos en 5 segundos sin degradar la calidad de los conceptos no objetivo.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Este trabajo presenta un marco de evaluación multiobjetivo, agnóstico al modelo y disponible públicamente, diseñado para analizar y visualizar de manera sistemática las compensaciones entre utilidad y equidad en sistemas de aprendizaje automático, con una aplicación específica y validada en el dominio de la imagen médica.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Los autores presentan un modelo de difusión de video consciente del objetivo que genera videos a partir de una imagen inicial, donde un actor interactúa con un objeto específico definido por una máscara de segmentación y descrito mediante un prompt de texto, logrando una mayor precisión en las interacciones humano-objeto mediante la incorporación de tokens especiales y una función de pérdida de atención cruzada.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

El artículo presenta AdaRank, un marco innovador para la fusión de modelos que mejora el rendimiento multi-tarea mediante la poda adaptativa de componentes singulares interferentes durante la prueba, logrando resultados de vanguardia y reduciendo la brecha de rendimiento con los modelos ajustados individualmente a casi un 1%.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Este trabajo presenta un enfoque que utiliza "conceptos analíticos" definidos matemáticamente como puente entre el conocimiento semántico de los Modelos de Lenguaje Multimodales y el mundo físico, permitiendo a los robots manipular objetos articulados de forma generalizada y precisa mediante representaciones informadas por la física.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

El artículo presenta OSDM-MReg, un marco novedoso de registro de imágenes multiespectrales que utiliza un modelo de difusión condicional de un solo paso para traducir imágenes a un dominio unificado y una red de registro multiscale para lograr una alineación precisa y robusta entre sensores como SAR y ópticos.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Este artículo presenta VR-FuseNet, un modelo híbrido de aprendizaje profundo que fusiona VGG19 y ResNet50V2 sobre un conjunto de datos unificado y equilibrado para clasificar la retinopatía diabética con una precisión del 91,824%, integrando además técnicas de IA explicable para mejorar la interpretabilidad clínica de las predicciones.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Este artículo argumenta que los modelos de visión por computadora en ecología y biología deben evaluarse mediante métricas específicas de la aplicación que reflejen su impacto en el análisis final, demostrando mediante estudios de caso sobre chimpancés y palomas que un alto rendimiento en métricas de aprendizaje automático no garantiza necesariamente la precisión en los resultados biológicos.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Este trabajo propone un método basado en Inteligencia Artificial Explicable que permite atribuir con precisión y eficiencia las distancias de Wasserstein a componentes específicos de los datos, como subgrupos o características, facilitando así la comprensión de los factores que influyen en los desplazamientos de distribuciones y fenómenos de transporte.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Este artículo presenta el marco DURA, que integra un Selector de Características Clave y una nueva función de pérdida para modelar la incertidumbre del ruido y ajustar la dificultad de las muestras negativas, mejorando así la recuperación de personas basada en texto en entornos con correspondencias ruidosas.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Este estudio presenta el primer análisis teórico que demuestra que los transformadores preentrenados adversarialmente pueden funcionar como modelos fundacionales universalmente robustos, capaces de adaptarse a nuevas tareas mediante aprendizaje en contexto a partir de demostraciones limpias, superando así la necesidad de un entrenamiento adversarial adicional en las tareas posteriores.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

El artículo presenta la Distancia de Chamfer con Ponderación Flexible (FCD), una función objetivo mejorada que, al desacoplar la precisión local de la completitud global mediante una estrategia de ponderación asimétrica, mitiga eficazmente la agregación de puntos y mejora la integridad estructural en tareas de completación y generación de nubes de puntos.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

DeepEyes es un modelo de visión y lenguaje que, mediante aprendizaje por refuerzo sin datos de razonamiento previos, aprende nativamente a "pensar con imágenes" mediante percepción activa, mejorando significativamente su capacidad de razonamiento visual y reduciendo alucinaciones.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

El artículo presenta GradPCA, un método de detección de datos fuera de distribución que aprovecha la estructura de bajo rango de los gradientes inducida por la alineación del Kernel Tangente Neural (NTK) para lograr un rendimiento más consistente y ofrecer una perspectiva teórica sobre las propiedades del espacio de características que facilitan una detección efectiva.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Este artículo presenta DTR, una defensa innovadora en tiempo de inferencia que mitiga los ataques de jailbreak multimodales en modelos de visión y lenguaje mediante la reponderación dinámica de tokens visuales y la optimización de sus cachés de clave-valor, mejorando la robustez sin comprometer el rendimiento general.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Este artículo presenta Seek-CAD, un método de generación de modelos CAD paramétricos 3D sin entrenamiento que utiliza el modelo de lenguaje DeepSeek-R1 desplegado localmente junto con retroalimentación visual y de razonamiento en cadena para refinar iterativamente los diseños, apoyado por un nuevo dataset estructurado bajo el paradigma SSR.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Este artículo propone funciones de núcleo probabilísticas basadas en proyecciones deterministas y ángulos de referencia para la búsqueda de vecinos más cercanos aproximados, logrando un rendimiento de consultas por segundo entre 2,5 y 3 veces superior al algoritmo HNSW sin depender de suposiciones asintóticas.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

El artículo presenta Point-MoE, un enfoque basado en una mezcla de expertos que permite el entrenamiento conjunto a gran escala de múltiples conjuntos de datos heterogéneos para la segmentación semántica 3D sin necesidad de etiquetas de conjunto, superando a los métodos anteriores al permitir que el modelo descubra automáticamente la estructura de los datos.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

El artículo presenta SenseFlow, un método que supera los desafíos de convergencia de la destilación de modelos de texto a imagen basados en flujo mediante la alineación implícita de distribuciones y la guía intra-segmento, logrando un rendimiento superior en modelos como SD 3.5 y FLUX.1 dev.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

← Anterior Siguiente →