cs.CV artículos | Gist.Science

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabajo presenta Quant Experts (QE), un método de cuantización post-entrenamiento para modelos de visión y lenguaje que utiliza una arquitectura de expertos mixtos adaptativa y consciente de los tokens para compensar dinámicamente los errores de cuantización mediante expertos compartidos y enrutados, mejorando así la precisión en diversos modelos y configuraciones sin necesidad de reentrenamiento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este trabajo presenta un marco de verificación neurosimbólico que utiliza solutores SMT y bases de conocimiento clínico para auditar y garantizar la consistencia lógica de los informes radiológicos generados por modelos de visión y lenguaje, eliminando así las alucinaciones y mejorando la precisión diagnóstica más allá de las métricas léxicas tradicionales.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

AgenticOCR es un paradigma de análisis dinámico que transforma la OCR estática en un sistema de extracción bajo demanda impulsado por consultas, mejorando así la eficiencia y precisión de los sistemas RAG multimodales al extraer selectivamente solo las regiones relevantes de documentos visuales complejos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este trabajo propone un método compacto para la Splatting Gaussiana 3D que combina una estrategia de poda adaptativa basada en la calidad de reconstrucción y un nuevo primitivo de Diferencia de Gaussianas, logrando una reducción de hasta un 90% en el número de gaussianas sin sacrificar la calidad visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Este trabajo presenta TASOT, un método no supervisado que utiliza el transporte óptimo multimodal combinando información visual y textual para lograr una segmentación temporal precisa de fases y pasos quirúrgicos sin necesidad de costosas preentrenamientos a gran escala, superando significativamente a los métodos existentes en varios conjuntos de datos de referencia.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

El artículo presenta HumanOrbit, un modelo de difusión de video que genera una orbita de 360° continua y consistente a partir de una sola imagen para reconstruir mallas 3D texturizadas de alta fidelidad de personas.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

El artículo presenta RAViT, un marco de visión adaptativa que reduce el costo computacional de los transformadores de visión mediante una arquitectura multi-rama con resolución variable y un mecanismo de salida temprana, logrando una precisión equivalente a los modelos clásicos con solo el 70% de las operaciones (FLOPs).

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Este trabajo propone el "Omnivorous Vision Encoder", un marco que alinea las representaciones de diferentes modalidades visuales mediante un objetivo dual de alineación y destilación, permitiendo que un modelo preentrenado como DINOv2 genere embeddings coherentes y potentes independientemente del tipo de entrada (RGB, profundidad, etc.).

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Este trabajo presenta el primer marco automatizado de auditoría multimodal para la detección sistemática y explicación de fallos en clasificadores de imágenes médicas, demostrando mediante experimentos en el conjunto de datos MIMIC-CXR-JPG que el uso de información multimodal mejora la eficacia de la auditoría en comparación con los enfoques unimodales.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

El artículo presenta UMPIRE, un marco de cuantificación de incertidumbre sin entrenamiento para modelos de lenguaje grandes multimodales que calcula el volumen semántico ajustado por incoherencia utilizando características internas del modelo, logrando una detección de errores y calibración superiores en diversas modalidades y escenarios sin depender de herramientas externas.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

El artículo presenta SenCache, un marco de caché sensible a la sensibilidad que acelera la inferencia de modelos de difusión mediante la selección dinámica y adaptativa de pasos de caché basados en un análisis teórico del error, logrando una mejor calidad visual que los métodos existentes en modelos como Wan 2.1, CogVideoX y LTX-Video.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

El artículo presenta MuViT, una arquitectura de transformadores que fusiona observaciones de múltiples resoluciones en un sistema de coordenadas compartido para mejorar el análisis de imágenes microscópicas de gran escala al integrar simultáneamente el contexto de campo amplio con los detalles de alta resolución.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Este trabajo presenta un nuevo método que mejora la comprensión espacial en la generación de imágenes mediante la construcción del conjunto de datos SpatialReward-Dataset y el modelo de recompensa SpatialScore, los cuales permiten un aprendizaje por refuerzo en línea que supera a los modelos propietarios existentes en la evaluación y generación precisa de relaciones espaciales complejas.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

El artículo presenta GTASR, un paradigma de entrenamiento ligero para la superresolución de imágenes en escenarios reales que supera las limitaciones de los modelos de consistencia existentes mediante una alineación de trayectoria y una rectificación estructural dual, logrando así una generación de alta calidad en un solo paso con baja latencia.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

Este trabajo presenta la Compacción de Variedad Latente (LMC), un marco de aprendizaje no supervisado que elimina los efectos de lote en imágenes de histopatología mediante la compresión de variedades latentes inducidas por la tinción, logrando así una generalización superior en tareas de clasificación y detección entre diferentes dominios.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

El modelo HAL propone un enfoque de aprendizaje jerárquico basado en la diferencia de tasas de evolución entre variables visuales y de acción latente para lograr una segmentación de acciones débilmente supervisada con variables estrictamente identificables y rendimiento superior.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Este trabajo propone un paradigma de entrenamiento que combina la búsqueda de modos y la búsqueda de medias mediante un Transformador de Difusión Desacoplado para generar videos largos de alta fidelidad y coherencia en pocos pasos, superando la escasez de datos de larga duración al alinear la estructura narrativa global con la realismo local aprendido de un modelo maestro de videos cortos.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Este artículo presenta BSDM, un modelo de difusión innovador que detecta anomalías en imágenes hiperespectrales suprimiendo fondos complejos mediante el aprendizaje de distribuciones latentes sin necesidad de datos etiquetados, logrando así una alta generalización en diferentes dominios.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

← Anterior Siguiente →