XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

El artículo presenta XStreamVGGT, un enfoque sin ajuste que integra poda y cuantización para comprimir la memoria KV en modelos de geometría visual, logrando una inferencia de reconstrucción 3D en streaming extremadamente eficiente que reduce el uso de memoria en 4.42 veces y acelera la inferencia en 5.48 veces con una degradación de rendimiento mínima.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Este artículo presenta un marco de aprendizaje llamado L2RP que estudia la propagación de errores en la anotación de videos de endoscopia para el esófago de Barrett y optimiza cuándo solicitar intervención experta, logrando así un equilibrio entre el esfuerzo humano y la precisión de la segmentación.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

El artículo presenta DynamicGTR, un marco que mejora las capacidades de los modelos de visión y lenguaje en la respuesta a preguntas sobre grafos seleccionando dinámicamente la representación de topología de grafos óptima para cada consulta, logrando así un equilibrio adaptable entre precisión y brevedad sin necesidad de entrenamiento adicional.

Yanbin Wei, Jiangyue Yan, Chun Kang + 4 more2026-02-26💬 cs.CL

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

El marco GFPL aborda los desafíos de la desequilibrio de datos y el alto costo de comunicación en el aprendizaje federado mediante la generación de prototipos con modelos de mezcla gaussiana, su agregación basada en la distancia de Bhattacharyya y una arquitectura de doble clasificador, logrando así una mayor precisión y eficiencia en tareas de visión por computadora.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

UNet-Based Keypoint Regression for 3D Cone Localization in Autonomous Racing

Este trabajo presenta un sistema basado en una red neuronal UNet entrenada con el conjunto de datos personalizado más grande hasta la fecha para la detección precisa de puntos clave en conos en 3D, logrando mejoras significativas en la localización y el rendimiento de la navegación en carreras autónomas competitivas en comparación con los métodos tradicionales.

Mariia Baidachna, James Carty, Aidan Ferguson + 7 more2026-02-26💻 cs

Learning in the Null Space: Small Singular Values for Continual Learning

El artículo presenta NESS, un método de aprendizaje continuo que mitiga el olvido catastrófico al aplicar actualizaciones de parámetros restringidas a un espacio nulo aproximado construido a partir de los valores singulares más pequeños de las representaciones de entrada, permitiendo así la adaptación a nuevas tareas sin interferir significativamente con el conocimiento previo.

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Este trabajo presenta "geometry-as-context", un marco autoregresivo que mejora la generación de videos coherentes con la escena al integrar la estimación de geometría y la síntesis de imágenes en un modelo único, superando las limitaciones de acumulación de errores y falta de diferenciabilidad de los métodos anteriores mediante un módulo de atención controlado por cámara y una estrategia de entrenamiento con eliminación aleatoria de contexto geométrico.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Este estudio presenta un marco automatizado basado en el modelo CARD-ViT que permite la detección y puntuación de calcio coronario en tomografías computarizadas no sincronizadas con electrocardiograma, logrando una generalización transversal efectiva desde datos sincronizados sin necesidad de entrenamiento en datos no sincronizados.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Learning to Fuse and Reconstruct Multi-View Graphs for Diabetic Retinopathy Grading

Este trabajo presenta MVGFDR, un marco de fusión de grafos multi-vista que mejora la clasificación de la retinopatía diabética al desentrañar explícitamente las características visuales compartidas y específicas de cada vista mediante inicialización de grafos, fusión selectiva y reconstrucción enmascarada, superando así a los métodos existentes en el conjunto de datos MFIDDR.

Haoran Li, Yuxin Lin, Huan Wang + 9 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

El artículo presenta MindDriver, un marco de razonamiento multimodal progresivo que alinea la comprensión semántica, la imaginación espacial y la planificación de trayectorias mediante un pipeline de anotación automática guiado por retroalimentación y un ajuste fino por refuerzo progresivo, logrando un rendimiento superior en sistemas de conducción autónoma.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs