cs.CV artículos | Gist.Science

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

Este artículo presenta CUPID, un nuevo marco de desaprendizaje que aborda el fenómeno de "aprendizaje fácil, olvido difícil" en modelos sesgados al desentrelazar y actualizar selectivamente las vías causales y de sesgo, logrando así un olvido robusto y un rendimiento superior en conjuntos de datos sesgados.

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee + 3 more2026-02-26🤖 cs.LG

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Este trabajo presenta FAQ, un nuevo benchmark a gran escala que evalúa y mejora la capacidad de razonamiento temporal de los modelos de visión y lenguaje para la detección de deepfakes en video mediante una jerarquía de tareas de percepción, localización y razonamiento forense.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

El artículo presenta XStreamVGGT, un enfoque sin ajuste que integra poda y cuantización para comprimir la memoria KV en modelos de geometría visual, logrando una inferencia de reconstrucción 3D en streaming extremadamente eficiente que reduce el uso de memoria en 4.42 veces y acelera la inferencia en 5.48 veces con una degradación de rendimiento mínima.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

El artículo presenta GeoMotion, un enfoque totalmente basado en aprendizaje que realiza segmentación de movimiento de extremo a extremo mediante mecanismos de atención sobre representaciones latentes, aprovechando la geometría 4D para evitar la estimación explícita de correspondencias y lograr un rendimiento superior con alta eficiencia.

Xiankang He, Peile Lin, Ying Cui + 3 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

El artículo presenta StoryMovie, un dataset de 1.757 historias alineadas con guiones cinematográficos y subtítulos mediante coincidencia LCS, que permite entrenar al modelo Storyteller3 para mejorar significativamente la atribución de diálogos y la alineación semántica más allá de la mera fundamentación visual.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Meta-FC: Meta-Learning with Feature Consistency for Robust and Generalizable Watermarking

El artículo presenta Meta-FC, un enfoque de meta-aprendizaje con consistencia de características que supera las limitaciones de las estrategias actuales al entrenar modelos de marcaje de agua más robustos y generalizables mediante la identificación de activaciones neuronales estables frente a diversas distorsiones.

Yuheng Li, Weitong Chen, Chengcheng Zhu + 4 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artículo presenta un marco de aprendizaje llamado L2RP que estudia la propagación de errores en la anotación de videos de endoscopia para el esófago de Barrett y optimiza cuándo solicitar intervención experta, logrando así un equilibrio entre el esfuerzo humano y la precisión de la segmentación.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

El artículo presenta DynamicGTR, un marco que mejora las capacidades de los modelos de visión y lenguaje en la respuesta a preguntas sobre grafos seleccionando dinámicamente la representación de topología de grafos óptima para cada consulta, logrando así un equilibrio adaptable entre precisión y brevedad sin necesidad de entrenamiento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

El marco GFPL aborda los desafíos de la desequilibrio de datos y el alto costo de comunicación en el aprendizaje federado mediante la generación de prototipos con modelos de mezcla gaussiana, su agregación basada en la distancia de Bhattacharyya y una arquitectura de doble clasificador, logrando así una mayor precisión y eficiencia en tareas de visión por computadora.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Este trabajo presenta un sistema basado en una red neuronal UNet entrenada con el conjunto de datos personalizado más grande hasta la fecha para la detección precisa de puntos clave en conos en 3D, logrando mejoras significativas en la localización y el rendimiento de la navegación en carreras autónomas competitivas en comparación con los métodos tradicionales.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

El artículo presenta NESS, un método de aprendizaje continuo que mitiga el olvido catastrófico al aplicar actualizaciones de parámetros restringidas a un espacio nulo aproximado construido a partir de los valores singulares más pequeños de las representaciones de entrada, permitiendo así la adaptación a nuevas tareas sin interferir significativamente con el conocimiento previo.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Este trabajo presenta "geometry-as-context", un marco autoregresivo que mejora la generación de videos coherentes con la escena al integrar la estimación de geometría y la síntesis de imágenes en un modelo único, superando las limitaciones de acumulación de errores y falta de diferenciabilidad de los métodos anteriores mediante un módulo de atención controlado por cámara y una estrategia de entrenamiento con eliminación aleatoria de contexto geométrico.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este estudio presenta un marco automatizado basado en el modelo CARD-ViT que permite la detección y puntuación de calcio coronario en tomografías computarizadas no sincronizadas con electrocardiograma, logrando una generalización transversal efectiva desde datos sincronizados sin necesidad de entrenamiento en datos no sincronizados.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Este artículo presenta la Regularización de Difusión Ordinal Dirigida (D-ODR), un nuevo enfoque que modela la progresión de la retinopatía diabética como un flujo direccional irreversible mediante un grafo dirigido, logrando así una clasificación más precisa y biológicamente plausible al evitar transiciones reversas implausibles.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

Mobile-Ready Automated Triage of Diabetic Retinopathy Using Digital Fundus Images

Este artículo presenta un marco de aprendizaje profundo ligero basado en MobileNetV3 y CORAL que, tras ser entrenado con imágenes de fondo combinadas de APTOS 2019 e IDRiD, logra una detección automatizada y eficiente de la retinopatía diabética en dispositivos móviles con un puntaje Kappa ponderado cuadrático de 0,9019.

Aadi Joshi, Manav S. Sharma, Vijay Uttam Rathod + 3 more2026-02-26💻 cs

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Este trabajo presenta MVGFDR, un marco de fusión de grafos multi-vista que mejora la clasificación de la retinopatía diabética al desentrañar explícitamente las características visuales compartidas y específicas de cada vista mediante inicialización de grafos, fusión selectiva y reconstrucción enmascarada, superando así a los métodos existentes en el conjunto de datos MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

El artículo presenta MindDriver, un marco de razonamiento multimodal progresivo que alinea la comprensión semántica, la imaginación espacial y la planificación de trayectorias mediante un pipeline de anotación automática guiado por retroalimentación y un ajuste fino por refuerzo progresivo, logrando un rendimiento superior en sistemas de conducción autónoma.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

El artículo presenta GLoTran, un marco de percepción visual dual global-local para modelos de lenguaje multimodal que mejora la traducción de imágenes ricas en texto de alta resolución mediante la integración de contexto de escena y detalles finos, respaldado por el nuevo dataset a gran escala GLoD.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs

Global-Aware Edge Prioritization for Pose Graph Initialization

Este trabajo propone un método de inicialización de grafos de poses para la estructura a partir del movimiento que utiliza un grafo neuronal para priorizar globalmente las aristas candidatas, mejorando así la precisión y eficiencia de la reconstrucción en escenarios ambiguos y de alta velocidad.

Tong Wei, Giorgos Tolias, Jiri Matas + 1 more2026-02-26💻 cs

Dream-SLAM: Dreaming the Unseen for Active SLAM in Dynamic Environments

Dream-SLAM es un nuevo método de SLAM activo monocromático que supera las limitaciones de los enfoques existentes al "soñar" con estructuras semánticas y vistas espaciotemporales de entornos dinámicos para mejorar la estimación de poses, la coherencia del mapa y la planificación de trayectorias a largo plazo.

Xiangqi Meng, Pengxu Hou, Zhenjun Zhao + 4 more2026-02-26💻 cs

← Anterior Siguiente →