Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

Este trabajo presenta el primer marco unificado de estimación de pose 6D sin marcadores y servocontrol visual basado en posición para manipuladores continuos en endoscopios, el cual combina una simulación realista, una red de fusión de características estereoscópicas y una adaptación sim-to-real auto-supervisada para lograr un control de bucle cerrado preciso y sin sensores físicos.

Junhyun Park, Chunggil An, Myeongbo Park + 3 more2026-02-19💻 cs

Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Este trabajo propone un marco jerárquico de visión y lenguaje que utiliza el modelo fundacional UNI y una selección piramidal de parches para generar informes de patología a partir de imágenes de diapositivas completas, incorporando tokenización con BioGPT y una verificación basada en recuperación para mejorar la precisión y fiabilidad del texto diagnóstico.

Ahmet Halici, Ece Tugba Cebeci, Musa Balci + 2 more2026-02-19⚡ eess

Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

Este artículo presenta un marco de evaluación unificado para medir la robustez adversarial en la detección de objetos, revelando que los ataques modernos tienen baja transferibilidad hacia arquitecturas basadas en transformadores y demostrando que la estrategia de entrenamiento más efectiva combina ataques de alta perturbación con diversos objetivos.

Alexis Winter, Jean-Vincent Martini, Romaric Audigier + 2 more2026-02-19💻 cs

DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

El artículo presenta DressWild, una nueva pipeline feed-forward que genera patrones de costura 2D y prendas 3D físicamente consistentes a partir de una sola imagen natural, superando las limitaciones de las metodologías existentes mediante el uso de modelos visión-lenguaje para normalizar la pose y un codificador transformer para predecir parámetros editables sin necesidad de optimización iterativa.

Zeng Tao, Ying Jiang, Yunuo Chen + 7 more2026-02-19💻 cs

A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

El artículo presenta CLIP-MHAdapter, un marco de aprendizaje contrastivo ligero que integra un adaptador con atención multi-cabeza sobre tokens de parches para mejorar la clasificación de atributos en imágenes de vista callejera, logrando resultados de vanguardia en el conjunto de datos Global StreetScapes con un bajo costo computacional.

Qi You, Yitai Cheng, Zichao Zeng + 1 more2026-02-19🤖 cs.AI

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Este artículo presenta el marco CA-LIG, una metodología unificada y jerárquica que mejora la interpretabilidad de los modelos Transformer al integrar gradientes integrados por capa con gradientes de atención específicos de la clase para generar mapas de atribución sensibles al contexto que rastrean la evolución de la relevancia a través de las capas y componentes estructurales.

Melkamu Abay Mersha, Jugal Kalita2026-02-19💬 cs.CL

Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Este trabajo propone el Puente Semántico Auto-supervisado (SSB), un marco que integra priores semánticos externos en modelos de difusión para lograr traducciones de imagen no emparejadas espacialmente fieles sin supervisión cruzada, superando las limitaciones de los métodos adversarios y de inversión de difusión, especialmente en síntesis médica y edición guiada por texto.

Jiaming Liu, Felix Petersen, Yunhe Gao + 6 more2026-02-19💻 cs

PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

PredMapNet es un marco de aprendizaje profundo que mejora la construcción de mapas vectorizados HD en línea mediante la integración de la generación de consultas semánticas, el uso de memoria de mapas históricos explícitos y la guía de predicción a corto plazo para garantizar la consistencia temporal y superar las limitaciones de los métodos existentes.

Bo Lang, Nirav Savaliya, Zhihao Zheng + 3 more2026-02-19💻 cs

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Este artículo presenta la Selección de Principios Conscientes de la Saliencia (SAP), un método libre de datos y agnóstico al modelo que mejora el razonamiento en modelos de visión y lenguaje mediante la selección de principios de alto nivel y la inferencia multi-ruta, logrando así una menor alucinación de objetos y una mayor estabilidad en comparación con las técnicas de razonamiento secuencial tradicionales.

Mingjia Shi, Yinhan He, Yaochen Zhu + 1 more2026-02-19💻 cs

TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

TeCoNeRV es un método de compresión de video basado en hiperredes que supera las limitaciones de memoria y calidad de enfoques anteriores mediante la descomposición espacial-temporal de la predicción de pesos, un esquema de almacenamiento residual y una regularización de coherencia temporal, logrando así mejoras significativas en calidad de imagen, velocidad de codificación y eficiencia de bitrate en resoluciones de hasta 1080p.

Namitha Padmanabhan, Matthew Gwilliam, Abhinav Shrivastava2026-02-19💻 cs

ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

El artículo presenta ReCAP, un modelo de aprendizaje débilmente supervisado que genera pseudoetiquetas de los seis componentes OSATS a partir de datos cinemáticos para evaluar las habilidades quirúrgicas, superando a los métodos actuales en la predicción de puntuaciones OSATS y logrando un rendimiento comparable en la estimación de las puntuaciones GRS agregadas.

Julien Quarez, Marc Modat, Sebastien Ourselin + 2 more2026-02-18🤖 cs.AI