cs.CV artículos | Gist.Science

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

SpikeTrack es un marco innovador basado en redes de neuronas de espigas que logra un seguimiento visual RGB eficiente en energía y preciso mediante un diseño asimétrico y un módulo de recuperación de memoria, superando a los rastreadores avanzados basados en redes neuronales artificiales con un consumo energético significativamente menor.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Este trabajo presenta MSVBench, el primer benchmark integral para la generación de videos multi-toma que introduce un marco de evaluación híbrido combinando modelos multimodales grandes y expertos, logrando una correlación del 94.4% con juicios humanos y proporcionando señales de supervisión escalables para alinear el rendimiento de los modelos con estándares humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Este trabajo presenta Venus, un marco de dos etapas que potencia a los modelos de lenguaje multimodal grandes para ofrecer orientación estética y recorte de imágenes mediante el nuevo conjunto de datos y benchmark AesGuide, logrando un rendimiento superior al estado del arte en la mejora interpretativa y interactiva de la fotografía.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

El artículo presenta MINT, un marco innovador de transferencia de conocimiento multimodal que alinea las representaciones del habla con un espacio de biomarcadores neurales derivados de resonancia magnética para permitir un cribado biológicamente fundamentado de la enfermedad de Alzheimer en etapas tempranas sin necesidad de neuroimagen durante la inferencia.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

El artículo presenta MIGM-Shortcut, un método que acelera la generación de imágenes enmascaradas mediante el aprendizaje de un modelo ligero que captura la dinámica latente de los rasgos y las tokens muestreados, logrando una aceleración superior a 4x sin comprometer la calidad.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este trabajo propone un modelo de difusión latente ordinal para generar imágenes de fondo de ojo que incorpora explícitamente la estructura ordenada de la progresión de la retinopatía diabética, logrando una mayor realismo visual y consistencia clínica en comparación con los modelos condicionales estándar.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Este trabajo presenta DeBiasLens, un marco de mitigación de sesgos interpretable y agnóstico al modelo que utiliza autoencoders dispersos para localizar y desactivar selectivamente neuronas asociadas a atributos sociales en modelos visión-idioma, logrando así reducir los sesgos sociales sin degradar el conocimiento semántico.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

El artículo presenta SR3R, un marco de aprendizaje profundo de alimentación directa que reformula la reconstrucción 3D de superresolución como un mapeo directo desde vistas escasas de baja resolución hacia representaciones 3DGS de alta resolución, logrando una generalización robusta y una fidelidad superior al aprender automáticamente geometrías y apariencias de alta frecuencia a partir de datos multiescena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

SteerVAD es un marco novedoso que mejora la detección de anomalías en videos utilizando modelos multimodales grandes congelados mediante la identificación de expertos latentes y la aplicación de señales de rectificación dinámicas para orientar y corregir sus representaciones internas, logrando un rendimiento superior con datos de entrenamiento mínimos.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

El artículo presenta GuardAlign, un marco de defensa sin entrenamiento que mejora la alineación de seguridad en modelos de lenguaje multimodal grandes mediante la detección de riesgos optimizada con transporte óptimo y la calibración atenta cruzada, logrando reducir significativamente las respuestas inseguras sin comprometer la utilidad del modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

El artículo presenta AIR, un marco sin entrenamiento que mitiga las alucinaciones en modelos de lenguaje grandes multimodales mediante la reducción de tokens visuales y la integración selectiva de parches, mejorando así la fiabilidad del modelo sin incurrir en costes de supervisión ni latencia adicional.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabajo presenta Quant Experts (QE), un método de cuantización post-entrenamiento para modelos de visión y lenguaje que utiliza una arquitectura de expertos mixtos adaptativa y consciente de los tokens para compensar dinámicamente los errores de cuantización mediante expertos compartidos y enrutados, mejorando así la precisión en diversos modelos y configuraciones sin necesidad de reentrenamiento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este trabajo presenta un marco de verificación neurosimbólico que utiliza solutores SMT y bases de conocimiento clínico para auditar y garantizar la consistencia lógica de los informes radiológicos generados por modelos de visión y lenguaje, eliminando así las alucinaciones y mejorando la precisión diagnóstica más allá de las métricas léxicas tradicionales.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

AgenticOCR es un paradigma de análisis dinámico que transforma la OCR estática en un sistema de extracción bajo demanda impulsado por consultas, mejorando así la eficiencia y precisión de los sistemas RAG multimodales al extraer selectivamente solo las regiones relevantes de documentos visuales complejos.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Este trabajo propone un método compacto para la Splatting Gaussiana 3D que combina una estrategia de poda adaptativa basada en la calidad de reconstrucción y un nuevo primitivo de Diferencia de Gaussianas, logrando una reducción de hasta un 90% en el número de gaussianas sin sacrificar la calidad visual.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Este trabajo presenta TASOT, un método no supervisado que utiliza el transporte óptimo multimodal combinando información visual y textual para lograr una segmentación temporal precisa de fases y pasos quirúrgicos sin necesidad de costosas preentrenamientos a gran escala, superando significativamente a los métodos existentes en varios conjuntos de datos de referencia.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

El artículo presenta HumanOrbit, un modelo de difusión de video que genera una orbita de 360° continua y consistente a partir de una sola imagen para reconstruir mallas 3D texturizadas de alta fidelidad de personas.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

El artículo presenta RAViT, un marco de visión adaptativa que reduce el costo computacional de los transformadores de visión mediante una arquitectura multi-rama con resolución variable y un mecanismo de salida temprana, logrando una precisión equivalente a los modelos clásicos con solo el 70% de las operaciones (FLOPs).

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

← Anterior Siguiente →