cs.CV artículos | Gist.Science

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Este artículo propone una red de extracción de características de microexpresiones de doble rama con atención paralela y fusión adaptativa que supera a los métodos existentes en el conjunto de datos CASME II, alcanzando una precisión del 74,67%.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

El artículo presenta CC-VQA, un método sin entrenamiento que mitiga los conflictos de conocimiento en la respuesta visual a preguntas basada en conocimiento mediante un razonamiento centrado en la visión y una codificación y decodificación guiadas por correlación, logrando un rendimiento superior en varios benchmarks.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Este estudio presenta GDA-YOLO11, un nuevo modelo de segmentación de instancias amodal que mejora la detección de frutas ocultas y la precisión en la recolección robótica de cítricos, logrando tasas de éxito superiores incluso en escenarios de alta oclusión.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft es un marco de generación de video sin entrenamiento que mejora la claridad de eventos múltiples y la consistencia temporal mediante la alineación de las consultas de atención con los prompts específicos y el ajuste adaptativo de la fuerza de control.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

El artículo presenta NV-CoT, un marco que permite a los modelos de lenguaje multimodal realizar razonamiento visual mediante la generación de coordenadas numéricas continuas en lugar de tokens discretos, mejorando significativamente la precisión de localización y la exactitud de las respuestas con modificaciones arquitectónicas mínimas.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este trabajo propone un marco de aprendizaje profundo que combina representaciones de modelos fundacionales con una pérdida de puerta consciente del territorio para mejorar la segmentación de infartos y la puntuación ASPECTS en TC sin contraste, logrando un rendimiento superior al integrar el razonamiento anatómico clínico en el entrenamiento.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Este trabajo propone una estrategia de segmentación volumétrica que extiende las representaciones fundacionales 2D de DINOv3 a imágenes de resonancia magnética cerebral neonatal mediante un mecanismo estructurado de desensamblaje y reensamblaje de ventanas, logrando recuperar la estructura anatómica tridimensional y alcanzar un puntaje Dice de 0.65 en la segmentación del hipocampo.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

SpikeTrack es un marco innovador basado en redes de neuronas de espigas que logra un seguimiento visual RGB eficiente en energía y preciso mediante un diseño asimétrico y un módulo de recuperación de memoria, superando a los rastreadores avanzados basados en redes neuronales artificiales con un consumo energético significativamente menor.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Este trabajo presenta MSVBench, el primer benchmark integral para la generación de videos multi-toma que introduce un marco de evaluación híbrido combinando modelos multimodales grandes y expertos, logrando una correlación del 94.4% con juicios humanos y proporcionando señales de supervisión escalables para alinear el rendimiento de los modelos con estándares humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Este trabajo presenta Venus, un marco de dos etapas que potencia a los modelos de lenguaje multimodal grandes para ofrecer orientación estética y recorte de imágenes mediante el nuevo conjunto de datos y benchmark AesGuide, logrando un rendimiento superior al estado del arte en la mejora interpretativa y interactiva de la fotografía.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

El artículo presenta MINT, un marco innovador de transferencia de conocimiento multimodal que alinea las representaciones del habla con un espacio de biomarcadores neurales derivados de resonancia magnética para permitir un cribado biológicamente fundamentado de la enfermedad de Alzheimer en etapas tempranas sin necesidad de neuroimagen durante la inferencia.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

El artículo presenta MIGM-Shortcut, un método que acelera la generación de imágenes enmascaradas mediante el aprendizaje de un modelo ligero que captura la dinámica latente de los rasgos y las tokens muestreados, logrando una aceleración superior a 4x sin comprometer la calidad.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

Este trabajo propone un modelo de difusión latente ordinal para generar imágenes de fondo de ojo que incorpora explícitamente la estructura ordenada de la progresión de la retinopatía diabética, logrando una mayor realismo visual y consistencia clínica en comparación con los modelos condicionales estándar.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

Este trabajo presenta DeBiasLens, un marco de mitigación de sesgos interpretable y agnóstico al modelo que utiliza autoencoders dispersos para localizar y desactivar selectivamente neuronas asociadas a atributos sociales en modelos visión-idioma, logrando así reducir los sesgos sociales sin degradar el conocimiento semántico.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

El artículo presenta SR3R, un marco de aprendizaje profundo de alimentación directa que reformula la reconstrucción 3D de superresolución como un mapeo directo desde vistas escasas de baja resolución hacia representaciones 3DGS de alta resolución, logrando una generalización robusta y una fidelidad superior al aprender automáticamente geometrías y apariencias de alta frecuencia a partir de datos multiescena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

SteerVAD es un marco novedoso que mejora la detección de anomalías en videos utilizando modelos multimodales grandes congelados mediante la identificación de expertos latentes y la aplicación de señales de rectificación dinámicas para orientar y corregir sus representaciones internas, logrando un rendimiento superior con datos de entrenamiento mínimos.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

El artículo presenta GuardAlign, un marco de defensa sin entrenamiento que mejora la alineación de seguridad en modelos de lenguaje multimodal grandes mediante la detección de riesgos optimizada con transporte óptimo y la calibración atenta cruzada, logrando reducir significativamente las respuestas inseguras sin comprometer la utilidad del modelo.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

El artículo presenta AIR, un marco sin entrenamiento que mitiga las alucinaciones en modelos de lenguaje grandes multimodales mediante la reducción de tokens visuales y la integración selectiva de parches, mejorando así la fiabilidad del modelo sin incurrir en costes de supervisión ni latencia adicional.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabajo presenta Quant Experts (QE), un método de cuantización post-entrenamiento para modelos de visión y lenguaje que utiliza una arquitectura de expertos mixtos adaptativa y consciente de los tokens para compensar dinámicamente los errores de cuantización mediante expertos compartidos y enrutados, mejorando así la precisión en diversos modelos y configuraciones sin necesidad de reentrenamiento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

← Anterior Siguiente →