cs.CV artículos | Gist.Science

Auto Quantum Machine Learning for Multisource Classification

Este trabajo presenta un enfoque de aprendizaje automático cuántico automatizado (AQML) para la fusión de datos multifuente, demostrando que los circuitos cuánticos generados automáticamente superan a los modelos clásicos y manuales en tareas como la detección de cambios en el conjunto de datos ONERA.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

El artículo presenta InfoNoise, un esquema de entrenamiento para modelos de difusión que utiliza la tasa de entropía condicional para asignar de manera adaptativa el ruido basándose en la información, logrando así un entrenamiento más eficiente y de mayor calidad que los métodos tradicionales en diversos conjuntos de datos.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artículo analiza sistemáticamente los efectos del acoplamiento en el rendimiento de manipuladores continuos aéreos, demostrando que, aunque los modelos desacoplados presentan discrepancias significativas en lazo abierto, un controlador de seguimiento visual basado en deslizamiento permite que el modelo desacoplado alcance una precisión de seguimiento comparable a la del modelo acoplado en lazo cerrado con un menor costo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Este artículo propone y valida los "modelos de mundo isomórficos", arquitecturas basadas en campos neuronales que preservan la topología sensorial para predecir la física mediante propagación geométrica, demostrando que este enfoque mejora la transferencia de políticas de imaginación a la realidad y genera espontáneamente una codificación selectiva del cuerpo.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

El artículo presenta LoRun, una red de desdoblamiento profundo que utiliza adaptadores LoRA ligeros inyectados en un único desnoiser base compartido para eliminar la redundancia de parámetros y adaptar dinámicamente los niveles de eliminación de ruido en cada etapa, logrando una restauración de imágenes más eficiente sin sacrificar el rendimiento.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

El artículo presenta Video-TwG, un marco de aprendizaje reforzado con un currículo de dos etapas y un nuevo algoritmo (TwG-GRPO) que permite a los modelos de lenguaje grandes para video realizar un razonamiento intercalado con anclaje bajo demanda, mejorando así la comprensión de videos largos al reducir las alucinaciones y el procesamiento redundante sin necesidad de trazas de razonamiento altamente anotadas.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

El artículo presenta HIME, un método de edición de modelos que mitiga las alucinaciones de objetos en modelos de lenguaje y visión grandes mediante la identificación y modificación selectiva de capas específicas basada en un nuevo índice de insensibilidad a alucinaciones, logrando una reducción significativa de errores sin incurrir en costes computacionales adicionales.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

El artículo presenta NeXt2Former-CD, un marco eficiente para la detección de cambios en imágenes de teledetección que integra arquitecturas modernas como ConvNeXt y Mask2Former, superando a los modelos basados en SSM en precisión y manteniendo una latencia de inferencia comparable.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

El artículo presenta SMBlurDetect, un marco unificado que combina la generación de un dataset sintético de alto calidad con un detector basado en U-Net para lograr la detección y segmentación cero-shot de desenfoque de movimiento sutil en imágenes estáticas, superando significativamente a los métodos existentes en precisión y generalización.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Este artículo propone un método de aprendizaje espectral magnético consistente en fase para la agrupación multivista no supervisada, que modela el acuerdo direccional entre vistas mediante afinidades complejas y un Laplaciano magnético hermitiano para extraer una señal espectral compartida robusta que supera las limitaciones de los enfoques existentes al manejar la discrepancia y el ruido entre vistas.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

El artículo presenta MiSCHiEF, un conjunto de datos de referencia basado en pares contrastivos de imágenes y descripciones mínimamente diferentes en los ámbitos de seguridad y cultura, diseñado para evaluar la alineación granular de modelos de visión-lingüística y revelar sus dificultades persistentes en la distinción de matices semánticos y visuales críticos.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

El artículo presenta RoboCurate, un marco innovador para la generación de datos sintéticos en robótica que valida la calidad de las acciones mediante la comparación con simulaciones y aumenta la diversidad de observaciones, logrando mejoras significativas en las tasas de éxito frente al uso exclusivo de datos reales.

Seungku Kim, Suhyeok Jang, Byungjun Yoon + 3 more2026-02-24🤖 cs.AI

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Los autores presentan GeoCode, un nuevo conjunto de datos multimodal de geometría generado sintéticamente que utiliza código de trazado para alinear la comprensión visual con el razonamiento simbólico, logrando mejoras significativas en el rendimiento de los modelos en diversas tareas de geometría.

Haobo Lin, Tianyi Bai, Chen Chen + 4 more2026-02-24🤖 cs.AI

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Este estudio presenta un benchmark que evalúa diez modelos fundacionales para la segmentación semántica en patología computacional, demostrando que el modelo CONCH supera a los demás y que la combinación de características de múltiples modelos mejora significativamente el rendimiento general.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

El paper presenta EditedID, un marco de alineación, desentrelado y entrelado sin entrenamiento que supera las limitaciones actuales de los modelos de edición multimodal al garantizar una restauración facial robusta y consistente con la identidad original y los elementos editados mediante estrategias de mezcla adaptativa, resolución híbrida y mecanismos de compuerta atencional.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs

Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

El artículo presenta Person2Drive, un marco integral y un benchmark de código abierto que aborda los desafíos de la conducción autónoma personalizada de extremo a extremo mediante la generación de datos diversificados, métricas cuantitativas para evaluar estilos de conducción individuales y un modelo de recompensa que adapta los sistemas a los comportamientos específicos de cada usuario.

Xiaoru Dong, Ruiqin Li, Xiao Han + 7 more2026-02-24💻 cs

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

El artículo presenta TAG, un marco de visión-lingüístico que mejora el reconocimiento de expresiones faciales y reduce las alucinaciones al forzar que el razonamiento del modelo se base en unidades de acción (AU) verificables mediante ajuste fino y aprendizaje por refuerzo.

Haobo Lin, Tianyi Bai, Jiajun Zhang + 5 more2026-02-24🤖 cs.AI

A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

Este artículo presenta GeoLink-UV, un producto de mapeo de alta resolución que identifica y delimita las aldeas urbanas en 342 ciudades de China mediante modelos fundamentales y datos multifuente, proporcionando una base geoespacial validada para el monitoreo de asentamientos informales y la planificación de renovación urbana.

Lubin Bai, Sheng Xiao, Ziyu Yin + 4 more2026-02-24💻 cs

Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Este trabajo propone ZS-MIL, un método que utiliza las incrustaciones de texto de modelos de visión-lingüística preentrenados para inicializar los clasificadores en el aprendizaje de múltiples instancias, mejorando así la adaptación con pocos ejemplos en la clasificación de imágenes de histopatología en comparación con las inicializaciones aleatorias.

Pablo Meseguer, Rocío del Amor, Valery Naranjo2026-02-24💻 cs

Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Este trabajo propone un método de alineación de preferencias para modelos de difusión que, inspirado en la guía libre de clasificadores, decopla el aprendizaje en módulos positivos y negativos para generar una señal de "guía contrastiva" en tiempo de inferencia, mejorando así la alineación y la generalización sin necesidad de reentrenar el modelo base.

Zhou Jiang, Yandong Wen, Zhen Liu2026-02-24💻 cs

← Anterior Siguiente →