cs.CV artículos | Gist.Science

Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Este artículo presenta la Ataque de Refinamiento Jerárquico (HRA), un marco de ataque universal multimodal para modelos de visión-idioma que supera las limitaciones de los ataques específicos de muestra mediante la optimización temporal de gradientes en imágenes y la jerarquización de la importancia textual para lograr una transferencia superior en diversas tareas.

Peng-Fei Zhang, Zi Huang2026-02-18💻 cs

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

El artículo presenta TTSA3R, un marco libre de entrenamiento que mejora la estabilidad de la reconstrucción 3D en secuencias largas mediante la fusión de actualizaciones adaptativas temporales y espaciales para mitigar el olvido catastrófico.

Zhijie Zheng, Xinhao Xiang, Jiawei Zhang2026-02-18💻 cs

Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

El artículo presenta "Prompt Reinjection", un método sin entrenamiento que mitiga el olvido de las instrucciones en los Transformadores de Difusión Multimodales (MMDiTs) al reintroducir las representaciones del texto en capas profundas, mejorando así la capacidad de seguir prompts y la calidad de generación de imágenes.

Yuxuan Yao, Yuxuan Chen, Hui Li + 6 more2026-02-18💻 cs

Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh

Este artículo describe la adaptación de la plataforma Project Sidewalk para Chandigarh, India, mediante la integración de guías de anotación asistidas por modelos de visión y lenguaje (VLM) y un análisis centrado en puntos de interés, lo que permitió auditar 40 km de aceras e identificar más de 1.600 ubicaciones que requieren mejoras en la accesibilidad.

Varchita Lalwani, Utkarsh Agarwal, Michael Saugstad + 3 more2026-02-18💻 cs

GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation

El artículo presenta GRAFNet, una arquitectura de aprendizaje profundo inspirada biológicamente que integra mecanismos de atención cortical guiada y procesamiento retinal multiscale para lograr un rendimiento superior y más interpretable en la segmentación de pólipos colonoscópicos en comparación con los métodos existentes.

Abdul Joseph Fofanah, Lian Wen, Alpha Alimamy Kamara + 3 more2026-02-18🤖 cs.AI

StrokeNeXt: A Siamese-encoder Approach for Brain Stroke Classification in Computed Tomography Imagery

El artículo presenta StrokeNeXt, un modelo basado en un enfoque de codificador siameso con ConvNeXt que logra un rendimiento superior y una rápida convergencia en la clasificación de ictus isquémico y hemorrágico en imágenes de tomografía computarizada, superando a las técnicas de referencia existentes.

Leo Thomas Ramos, Angel D. Sappa2026-02-18⚡ eess

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition

Este trabajo propone un marco desacoplado que utiliza modelos de lenguaje grandes multimodales (MLLM) para el reconocimiento de interacciones humano-objeto en escenarios de cero disparos, logrando un rendimiento superior y una generalización cruzada sin necesidad de reentrenar los detectores de objetos.

Shiyu Xuan, Dongkai Wang, Zechao Li + 1 more2026-02-18💻 cs

MB-DSMIL-CL-PL: Scalable Weakly Supervised Ovarian Cancer Subtype Classification and Localisation Using Contrastive and Prototype Learning with Frozen Patch Features

Este artículo presenta MB-DSMIL-CL-PL, un enfoque escalable de aprendizaje débilmente supervisado que utiliza aprendizaje contrastivo y prototípico sobre características congeladas para lograr mejoras significativas en la clasificación y localización de subtipos de cáncer de ovario, superando a los métodos existentes sin sacrificar la eficiencia computacional.

Marcus Jenkins, Jasenka Mazibrada, Bogdan Leahu + 1 more2026-02-18🤖 cs.AI

CGRA-DeBERTa Concept Guided Residual Augmentation Transformer for Theologically Islamic Understanding

Este artículo presenta CGRA-DeBERTa, un marco de transformador con realce residual guiado por conceptos que, al incorporar un diccionario teológico islámico y un mecanismo de puerta de atención, logra un rendimiento superior (97.85 de EM) en la extracción de respuestas a preguntas sobre los Hadices comparado con modelos BERT y DeBERTa estándar.

Tahir Hussain, Saddam Hussain Khan2026-02-18💬 cs.CL

Loss Knows Best: Detecting Annotation Errors in Videos via Loss Trajectories

Este trabajo propone un método agnóstico al modelo que detecta errores de anotación en videos, como etiquetas incorrectas o desorden temporal, analizando las trayectorias de pérdida acumulada de cada cuadro a lo largo de las épocas de entrenamiento para identificar aquellos que presentan patrones de aprendizaje anómalos.

Praditha Alwis, Soumyadeep Chandra, Deepak Ravikumar + 1 more2026-02-18🤖 cs.LG

Distributional Deep Learning for Super-Resolution of 4D Flow MRI under Domain Shift

Este artículo propone un marco de aprendizaje profundo distribucional que mejora la robustez y la generalización en la super-resolución de imágenes de RM de flujo 4D bajo desplazamientos de dominio, superando a los enfoques tradicionales mediante un entrenamiento inicial con simulaciones de dinámica de fluidos computacional y un ajuste fino con datos clínicos.

Xiaoyi Wen, Fei Jiang2026-02-18📊 stat

Time-Archival Camera Virtualization for Sports and Visual Performances

Este artículo propone un nuevo enfoque de renderizado volumétrico neuronal para la virtualización de cámaras en eventos deportivos y performances, que supera las limitaciones de los métodos actuales al permitir la síntesis de vistas novedosas fotorrealistas y coherentes para cualquier instante temporal pasado, facilitando así el análisis retrospectivo y la archivación eficiente de escenas dinámicas complejas.

Yunxiao Zhang, William Stone, Suryansh Kumar2026-02-18🤖 cs.LG

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Este artículo presenta un marco para estudiar y optimizar las preferencias visuales de los modelos de visión-lingüaje mediante la perturbación sistemática de imágenes y la inferencia de utilidad latente, demostrando que las ediciones optimizadas alteran significativamente sus decisiones y ofreciendo una herramienta proactiva para auditar vulnerabilidades visuales.

Manuel Cherep, Pranav M R, Pattie Maes + 1 more2026-02-18🤖 cs.AI

Consistency-Preserving Diverse Video Generation

Este trabajo propone un marco de muestreo conjunto para generadores de video basados en flujo que maximiza la diversidad entre muestras manteniendo la consistencia temporal, logrando esto mediante actualizaciones guiadas por la diversidad y la eliminación de componentes que la perjudican, todo ello calculado en el espacio latente para evitar costosas retropropagaciones en el espacio de imágenes.

Xinshuang Liu, Runfa Blark Li, Truong Nguyen2026-02-18💻 cs

Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models

Este artículo presenta un marco de detección de anomalías en 3D totalmente libre de entrenamiento para resonancias magnéticas cerebrales, que supera las limitaciones de los enfoques 2D al agregar rebanadas multi-eje procesadas por modelos fundacionales 2D para generar tokens volumétricos locales que capturan el contexto espacial completo sin necesidad de supervisión ni ajuste fino.

Tai Le-Gia, Jaehyun Ahn2026-02-18📊 stat

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

El marco Sparrow aborda el colapso de rendimiento del muestreo especulativo en modelos de lenguaje grandes para video mediante la atención anclada a texto con ventanas y la reutilización de estados intermedios ricos en semántica visual, logrando una aceleración de 2.82x incluso con secuencias largas de 25k tokens visuales.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

El artículo presenta EventMemAgent, un agente activo para la comprensión de video en línea que supera las limitaciones de contexto de los modelos multimodales mediante una memoria jerárquica centrada en eventos, una estrategia de muestreo de reservorio y el uso de aprendizaje por refuerzo para integrar herramientas de percepción activa.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang + 2 more2026-02-18💻 cs

Benchmarking Self-Supervised Models for Cardiac Ultrasound View Classification

Este estudio demuestra que el marco de aprendizaje auto-supervisado USF-MAE supera consistentemente a MoCo v3 en la clasificación de vistas de ecocardiogramas utilizando el conjunto de datos CACTUS, logrando métricas de rendimiento superiores y estadísticamente significativas.

Youssef Megahed, Salma I. Megahed, Robin Ducharme + 4 more2026-02-18⚡ eess

Effective and Robust Multimodal Medical Image Analysis

Este artículo presenta MAIL y Robust-MAIL, redes neuronales novedosas que superan las limitaciones de los métodos actuales de fusión multimodal en el análisis de imágenes médicas al ofrecer mayor generalización, eficiencia computacional y robustez ante ataques adversarios, logrando mejoras significativas en el rendimiento en 20 conjuntos de datos públicos.

Joy Dhar, Nayyar Zaidi, Maryam Haghighat2026-02-18💻 cs

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

El artículo presenta CREMD, un conjunto de datos multimodal de perros creado mediante crowdsourcing que analiza cómo el contexto visual, el audio y las características de los anotadores influyen en la percepción y el etiquetado de las emociones caninas, revelando que el contexto visual mejora el acuerdo, los no propietarios y los hombres muestran mayor consenso que sus contrapartes, y el audio aumenta la confianza en la identificación de emociones específicas.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs

← Anterior Siguiente →