cs.CV artículos | Gist.Science

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Este trabajo demuestra que la presión morfológica, ya sea mediante descriptores de rasgos o patrones fonológicos en los prompts, crea gradientes navegables en los espacios latentes de modelos de difusión texto-a-imagen que permiten definir identidades visuales consistentes sin necesidad de datos de entrenamiento específicos.

Andrew Fraser2026-02-24💻 cs

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Este estudio demuestra que los modelos generativos de vanguardia utilizados en la reconstrucción de imágenes por resonancia magnética son altamente vulnerables a pequeñas perturbaciones adversarias que inducen alucinaciones peligrosas para el diagnóstico, las cuales no pueden ser detectadas mediante métricas de calidad tradicionales.

Suna Buğday, Yvan Saeys, Jonathan Peck2026-02-24⚡ eess

Rodent-Bench

El artículo presenta Rodent-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje multimodal grandes (MLLM) en la anotación de comportamientos de roedores, revelando que los modelos más avanzados actuales aún no son lo suficientemente precisos para esta tarea científica debido a limitaciones en la segmentación temporal y el manejo de secuencias de video prolongadas.

Thomas Heap, Laurence Aitchison, Emma Cahill + 1 more2026-02-24🤖 cs.AI

4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Este estudio presenta un enfoque innovador basado en una red neuronal 4D-UNet que mejora la filtración de ruido y la detección de microburbujas en la ecografía transcraneal con contraste en humanos, superando las limitaciones tradicionales para permitir una mejor visualización vascular cerebral.

Tristan Beruard, Armand Delbos, Arthur Chavignon + 2 more2026-02-24⚡ eess

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

El artículo presenta GIST, un método de selección de datos para el ajuste fino de instrucciones que supera las limitaciones de los enfoques basados en estadísticas del optimizador al alinear los gradientes de entrenamiento con un subespacio de baja dimensión derivado de gradientes de validación, logrando un rendimiento superior con una fracción mínima de almacenamiento y tiempo computacional.

Guanghui Min, Tianhao Huang, Ke Wan + 1 more2026-02-24🤖 cs.LG

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Este artículo presenta el conjunto de datos FloralSix y evalúa diversas arquitecturas YOLO para el reconocimiento de flores, demostrando que la elección del modelo y la densidad de anotación (objetos aislados frente a agrupados) son factores críticos para optimizar la precisión en aplicaciones agrícolas como el monitoreo de cultivos y la polinización robótica.

Safwat Nusrat, Prithwiraj Bhattacharjee2026-02-24🤖 cs.AI

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Este trabajo presenta DM4CT, un benchmark integral que evalúa y compara diez métodos basados en modelos de difusión frente a siete enfoques establecidos para la reconstrucción de tomografía computarizada, abordando desafíos prácticos como el ruido correlacionado y validando los resultados con un nuevo conjunto de datos de alta resolución obtenido en una instalación de sincrotrón.

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg2026-02-24⚡ eess

Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Este estudio demuestra que el uso de tamaños de parche más pequeños (1, 2 y 4) durante el ajuste fino de Vision Transformers mejora significativamente el rendimiento en la clasificación de imágenes médicas tanto bidimensionales como tridimensionales, superando a los parches grandes y ofreciendo resultados aún mejores mediante una estrategia de ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Este trabajo presenta un enfoque novedoso para generar rostros parlantes realistas a partir de una imagen estática, un perfil de voz y un texto objetivo, utilizando un espacio latente multi-entrelazado que sincroniza las características espacio-temporales específicas de la persona para sintetizar simultáneamente el audio y el video.

Aashish Chandra, Aashutosh A, Abhijit Das2026-02-24💻 cs

Auto Quantum Machine Learning for Multisource Classification

Este trabajo presenta un enfoque de aprendizaje automático cuántico automatizado (AQML) para la fusión de datos multifuente, demostrando que los circuitos cuánticos generados automáticamente superan a los modelos clásicos y manuales en tareas como la detección de cambios en el conjunto de datos ONERA.

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron2026-02-24⚛️ quant-ph

Information-Guided Noise Allocation for Efficient Diffusion Training

El artículo presenta InfoNoise, un esquema de entrenamiento para modelos de difusión que utiliza la tasa de entropía condicional para asignar de manera adaptativa el ruido basándose en la información, logrando así un entrenamiento más eficiente y de mayor calidad que los métodos tradicionales en diversos conjuntos de datos.

Gabriel Raya, Bac Nguyen, Georgios Batzolis + 6 more2026-02-24🤖 cs.LG

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Este artículo analiza sistemáticamente los efectos del acoplamiento en el rendimiento de manipuladores continuos aéreos, demostrando que, aunque los modelos desacoplados presentan discrepancias significativas en lazo abierto, un controlador de seguimiento visual basado en deslizamiento permite que el modelo desacoplado alcance una precisión de seguimiento comparable a la del modelo acoplado en lazo cerrado con un menor costo computacional.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

Neural Fields as World Models

Este artículo propone y valida los "modelos de mundo isomórficos", arquitecturas basadas en campos neuronales que preservan la topología sensorial para predecir la física mediante propagación geométrica, demostrando que este enfoque mejora la transferencia de políticas de imaginación a la realidad y genera espontáneamente una codificación selectiva del cuerpo.

Joshua Nunley2026-02-24🧬 q-bio

Deep LoRA-Unfolding Networks for Image Restoration

El artículo presenta LoRun, una red de desdoblamiento profundo que utiliza adaptadores LoRA ligeros inyectados en un único desnoiser base compartido para eliminar la redundancia de parámetros y adaptar dinámicamente los niveles de eliminación de ruido en cada etapa, logrando una restauración de imágenes más eficiente sin sacrificar el rendimiento.

Xiangming Wang, Haijin Zeng, Benteng Sun + 4 more2026-02-24💻 cs

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

El artículo presenta Video-TwG, un marco de aprendizaje reforzado con un currículo de dos etapas y un nuevo algoritmo (TwG-GRPO) que permite a los modelos de lenguaje grandes para video realizar un razonamiento intercalado con anclaje bajo demanda, mejorando así la comprensión de videos largos al reducir las alucinaciones y el procesamiento redundante sin necesidad de trazas de razonamiento altamente anotadas.

Houlun Chen, Xin Wang, Guangyao Li + 4 more2026-02-24🤖 cs.AI

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

El artículo presenta HIME, un método de edición de modelos que mitiga las alucinaciones de objetos en modelos de lenguaje y visión grandes mediante la identificación y modificación selectiva de capas específicas basada en un nuevo índice de insensibilidad a alucinaciones, logrando una reducción significativa de errores sin incurrir en costes computacionales adicionales.

Ahmed Akl, Abdelwahed Khamis, Ali Cheraghian + 3 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

El artículo presenta NeXt2Former-CD, un marco eficiente para la detección de cambios en imágenes de teledetección que integra arquitecturas modernas como ConvNeXt y Mask2Former, superando a los modelos basados en SSM en precisión y manteniendo una latencia de inferencia comparable.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Subtle Motion Blur Detection and Segmentation from Static Image Artworks

El artículo presenta SMBlurDetect, un marco unificado que combina la generación de un dataset sintético de alto calidad con un detector basado en U-Net para lograr la detección y segmentación cero-shot de desenfoque de movimiento sutil en imágenes estáticas, superando significativamente a los métodos existentes en precisión y generalización.

Ganesh Samarth, Sibendu Paul, Solale Tabarestani + 1 more2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Este artículo propone un método de aprendizaje espectral magnético consistente en fase para la agrupación multivista no supervisada, que modela el acuerdo direccional entre vistas mediante afinidades complejas y un Laplaciano magnético hermitiano para extraer una señal espectral compartida robusta que supera las limitaciones de los enfoques existentes al manejar la discrepancia y el ruido entre vistas.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

El artículo presenta MiSCHiEF, un conjunto de datos de referencia basado en pares contrastivos de imágenes y descripciones mínimamente diferentes en los ámbitos de seguridad y cultura, diseñado para evaluar la alineación granular de modelos de visión-lingüística y revelar sus dificultades persistentes en la distinción de matices semánticos y visuales críticos.

Sagarika Banerjee, Tangatar Madi, Advait Swaminathan + 4 more2026-02-24🤖 cs.AI

← Anterior Siguiente →