Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh

Este artículo describe la adaptación de la plataforma Project Sidewalk para Chandigarh, India, mediante la integración de guías de anotación asistidas por modelos de visión y lenguaje (VLM) y un análisis centrado en puntos de interés, lo que permitió auditar 40 km de aceras e identificar más de 1.600 ubicaciones que requieren mejoras en la accesibilidad.

Varchita Lalwani, Utkarsh Agarwal, Michael Saugstad + 3 more2026-02-18💻 cs

GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation

El artículo presenta GRAFNet, una arquitectura de aprendizaje profundo inspirada biológicamente que integra mecanismos de atención cortical guiada y procesamiento retinal multiscale para lograr un rendimiento superior y más interpretable en la segmentación de pólipos colonoscópicos en comparación con los métodos existentes.

Abdul Joseph Fofanah, Lian Wen, Alpha Alimamy Kamara + 3 more2026-02-18🤖 cs.AI

MB-DSMIL-CL-PL: Scalable Weakly Supervised Ovarian Cancer Subtype Classification and Localisation Using Contrastive and Prototype Learning with Frozen Patch Features

Este artículo presenta MB-DSMIL-CL-PL, un enfoque escalable de aprendizaje débilmente supervisado que utiliza aprendizaje contrastivo y prototípico sobre características congeladas para lograr mejoras significativas en la clasificación y localización de subtipos de cáncer de ovario, superando a los métodos existentes sin sacrificar la eficiencia computacional.

Marcus Jenkins, Jasenka Mazibrada, Bogdan Leahu + 1 more2026-02-18🤖 cs.AI

CGRA-DeBERTa Concept Guided Residual Augmentation Transformer for Theologically Islamic Understanding

Este artículo presenta CGRA-DeBERTa, un marco de transformador con realce residual guiado por conceptos que, al incorporar un diccionario teológico islámico y un mecanismo de puerta de atención, logra un rendimiento superior (97.85 de EM) en la extracción de respuestas a preguntas sobre los Hadices comparado con modelos BERT y DeBERTa estándar.

Tahir Hussain, Saddam Hussain Khan2026-02-18💬 cs.CL

Time-Archival Camera Virtualization for Sports and Visual Performances

Este artículo propone un nuevo enfoque de renderizado volumétrico neuronal para la virtualización de cámaras en eventos deportivos y performances, que supera las limitaciones de los métodos actuales al permitir la síntesis de vistas novedosas fotorrealistas y coherentes para cualquier instante temporal pasado, facilitando así el análisis retrospectivo y la archivación eficiente de escenas dinámicas complejas.

Yunxiao Zhang, William Stone, Suryansh Kumar2026-02-18🤖 cs.LG

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Este artículo presenta un marco para estudiar y optimizar las preferencias visuales de los modelos de visión-lingüaje mediante la perturbación sistemática de imágenes y la inferencia de utilidad latente, demostrando que las ediciones optimizadas alteran significativamente sus decisiones y ofreciendo una herramienta proactiva para auditar vulnerabilidades visuales.

Manuel Cherep, Pranav M R, Pattie Maes + 1 more2026-02-18🤖 cs.AI

Consistency-Preserving Diverse Video Generation

Este trabajo propone un marco de muestreo conjunto para generadores de video basados en flujo que maximiza la diversidad entre muestras manteniendo la consistencia temporal, logrando esto mediante actualizaciones guiadas por la diversidad y la eliminación de componentes que la perjudican, todo ello calculado en el espacio latente para evitar costosas retropropagaciones en el espacio de imágenes.

Xinshuang Liu, Runfa Blark Li, Truong Nguyen2026-02-18💻 cs

Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models

Este artículo presenta un marco de detección de anomalías en 3D totalmente libre de entrenamiento para resonancias magnéticas cerebrales, que supera las limitaciones de los enfoques 2D al agregar rebanadas multi-eje procesadas por modelos fundacionales 2D para generar tokens volumétricos locales que capturan el contexto espacial completo sin necesidad de supervisión ni ajuste fino.

Tai Le-Gia, Jaehyun Ahn2026-02-18📊 stat

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

El marco Sparrow aborda el colapso de rendimiento del muestreo especulativo en modelos de lenguaje grandes para video mediante la atención anclada a texto con ventanas y la reutilización de estados intermedios ricos en semántica visual, logrando una aceleración de 2.82x incluso con secuencias largas de 25k tokens visuales.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

El artículo presenta EventMemAgent, un agente activo para la comprensión de video en línea que supera las limitaciones de contexto de los modelos multimodales mediante una memoria jerárquica centrada en eventos, una estrategia de muestreo de reservorio y el uso de aprendizaje por refuerzo para integrar herramientas de percepción activa.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang + 2 more2026-02-18💻 cs

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

El artículo presenta CREMD, un conjunto de datos multimodal de perros creado mediante crowdsourcing que analiza cómo el contexto visual, el audio y las características de los anotadores influyen en la percepción y el etiquetado de las emociones caninas, revelando que el contexto visual mejora el acuerdo, los no propietarios y los hombres muestran mayor consenso que sus contrapartes, y el audio aumenta la confianza en la identificación de emociones específicas.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs