cs.CV artículos | Gist.Science

Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

Este trabajo presenta el primer marco unificado de estimación de pose 6D sin marcadores y servocontrol visual basado en posición para manipuladores continuos en endoscopios, el cual combina una simulación realista, una red de fusión de características estereoscópicas y una adaptación sim-to-real auto-supervisada para lograr un control de bucle cerrado preciso y sin sensores físicos.

Junhyun Park, Chunggil An, Myeongbo Park + 3 more2026-02-19💻 cs

Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Este trabajo propone un marco jerárquico de visión y lenguaje que utiliza el modelo fundacional UNI y una selección piramidal de parches para generar informes de patología a partir de imágenes de diapositivas completas, incorporando tokenización con BioGPT y una verificación basada en recuperación para mejorar la precisión y fiabilidad del texto diagnóstico.

Ahmet Halici, Ece Tugba Cebeci, Musa Balci + 2 more2026-02-19⚡ eess

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Este artículo presenta estrategias de entrenamiento y modelos como Chitrapathak-2 y Parichay que logran un rendimiento de vanguardia y una mayor eficiencia en la velocidad de inferencia para sistemas de reconocimiento óptico de caracteres multilingües y específicos de documentos gubernamentales en la India.

Ali Faraz, Raja Kolla, Ashish Kulkarni + 1 more2026-02-19🤖 cs.AI

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

Este trabajo presenta Visual Self-Refine (VSR), un nuevo paradigma que mejora la precisión en el análisis de gráficos mediante la generación y retroalimentación de localizaciones a nivel de píxel para corregir errores de percepción visual, implementado en el modelo ChartVSR y evaluado con el nuevo benchmark ChartP-Bench.

Jinsong Li, Xiaoyi Dong, Yuhang Zang + 3 more2026-02-19💻 cs

MMA: Multimodal Memory Agent

El artículo presenta a MMA, un agente multimodal que mejora la fiabilidad de la memoria externa mediante puntuaciones de confiabilidad dinámicas para mitigar errores y sesgos, validado mediante el nuevo benchmark MMA-Bench que revela el "Efecto Placebo Visual" y demuestra mejoras significativas en precisión y consistencia.

Yihao Lu, Wanru Cheng, Zeyu Zhang + 1 more2026-02-19💻 cs

Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

Este artículo presenta un marco de evaluación unificado para medir la robustez adversarial en la detección de objetos, revelando que los ataques modernos tienen baja transferibilidad hacia arquitecturas basadas en transformadores y demostrando que la estrategia de entrenamiento más efectiva combina ataques de alta perturbación con diversos objetivos.

Alexis Winter, Jean-Vincent Martini, Romaric Audigier + 2 more2026-02-19💻 cs

DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

El artículo presenta DressWild, una nueva pipeline feed-forward que genera patrones de costura 2D y prendas 3D físicamente consistentes a partir de una sola imagen natural, superando las limitaciones de las metodologías existentes mediante el uso de modelos visión-lenguaje para normalizar la pose y un codificador transformer para predecir parámetros editables sin necesidad de optimización iterativa.

Zeng Tao, Ying Jiang, Yunuo Chen + 7 more2026-02-19💻 cs

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

Este trabajo presenta un método de edición cero-shot para el "desdoblamiento de categorías" en modelos de reconocimiento de video, que permite refinar etiquetas gruesas en subcategorías más finas sin necesidad de nuevos datos, mejorando la comprensión detallada sin sacrificar el rendimiento general.

Kaiting Liu, Hazel Doughty2026-02-19🤖 cs.LG

Arc2Morph: Identity-Preserving Facial Morphing with Arc2Face

El artículo presenta Arc2Morph, una técnica de morfado facial basada en el modelo Arc2Face que genera ataques de morfado fotorealistas con alto potencial de evasión, preservando la identidad de manera comparable a los métodos tradicionales basados en puntos de referencia.

Nicolò Di Domenico, Annalisa Franco, Matteo Ferrara + 1 more2026-02-19💻 cs

A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

El artículo presenta CLIP-MHAdapter, un marco de aprendizaje contrastivo ligero que integra un adaptador con atención multi-cabeza sobre tokens de parches para mejorar la clasificación de atributos en imágenes de vista callejera, logrando resultados de vanguardia en el conjunto de datos Global StreetScapes con un bajo costo computacional.

Qi You, Yitai Cheng, Zichao Zeng + 1 more2026-02-19🤖 cs.AI

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Este artículo presenta el marco CA-LIG, una metodología unificada y jerárquica que mejora la interpretabilidad de los modelos Transformer al integrar gradientes integrados por capa con gradientes de atención específicos de la clase para generar mapas de atribución sensibles al contexto que rastrean la evolución de la relevancia a través de las capas y componentes estructurales.

Melkamu Abay Mersha, Jugal Kalita2026-02-19💬 cs.CL

Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Este trabajo propone el Puente Semántico Auto-supervisado (SSB), un marco que integra priores semánticos externos en modelos de difusión para lograr traducciones de imagen no emparejadas espacialmente fieles sin supervisión cruzada, superando las limitaciones de los métodos adversarios y de inversión de difusión, especialmente en síntesis médica y edición guiada por texto.

Jiaming Liu, Felix Petersen, Yunhe Gao + 6 more2026-02-19💻 cs

PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

PredMapNet es un marco de aprendizaje profundo que mejora la construcción de mapas vectorizados HD en línea mediante la integración de la generación de consultas semánticas, el uso de memoria de mapas históricos explícitos y la guía de predicción a corto plazo para garantizar la consistencia temporal y superar las limitaciones de los métodos existentes.

Bo Lang, Nirav Savaliya, Zhihao Zheng + 3 more2026-02-19💻 cs

VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

VETime es un marco innovador de detección de anomalías en series temporales que supera las limitaciones de los modelos existentes al unificar modalidades temporales y visuales mediante alineación fina y fusión dinámica, logrando un rendimiento superior en escenarios de cero disparos con menor costo computacional.

Yingyuan Yang, Tian Lan, Yifei Gao + 5 more2026-02-19💻 cs

Learning Situated Awareness in the Real World

Este artículo presenta SAW-Bench, un nuevo benchmark basado en videos reales de gafas inteligentes que evalúa la conciencia situada egocéntrica de los modelos multimodales, revelando una brecha significativa entre el rendimiento humano y el de la IA debido a la incapacidad de los modelos para inferir una geometría de cámara coherente y razonar sobre las relaciones centradas en el observador.

Chuhan Li, Ruilin Han, Joy Hsu + 5 more2026-02-19💻 cs

Are Object-Centric Representations Better At Compositional Generalization?

Este estudio demuestra que las representaciones centradas en objetos superan a las representaciones densas en la generalización composicional, especialmente en escenarios difíciles o cuando los recursos como el tamaño del conjunto de datos, la diversidad de entrenamiento o la capacidad de cómputo son limitados.

Ferdinand Kapl, Amir Mohammad Karimi Mamaghan, Maximilian Seitzer + 4 more2026-02-19🤖 cs.LG

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Este artículo presenta la Selección de Principios Conscientes de la Saliencia (SAP), un método libre de datos y agnóstico al modelo que mejora el razonamiento en modelos de visión y lenguaje mediante la selección de principios de alto nivel y la inferencia multi-ruta, logrando así una menor alucinación de objetos y una mayor estabilidad en comparación con las técnicas de razonamiento secuencial tradicionales.

Mingjia Shi, Yinhan He, Yaochen Zhu + 1 more2026-02-19💻 cs

TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

TeCoNeRV es un método de compresión de video basado en hiperredes que supera las limitaciones de memoria y calidad de enfoques anteriores mediante la descomposición espacial-temporal de la predicción de pesos, un esquema de almacenamiento residual y una regularización de coherencia temporal, logrando así mejoras significativas en calidad de imagen, velocidad de codificación y eficiencia de bitrate en resoluciones de hasta 1080p.

Namitha Padmanabhan, Matthew Gwilliam, Abhinav Shrivastava2026-02-19💻 cs

ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

El artículo presenta ReCAP, un modelo de aprendizaje débilmente supervisado que genera pseudoetiquetas de los seis componentes OSATS a partir de datos cinemáticos para evaluar las habilidades quirúrgicas, superando a los métodos actuales en la predicción de puntuaciones OSATS y logrando un rendimiento comparable en la estimación de las puntuaciones GRS agregadas.

Julien Quarez, Marc Modat, Sebastien Ourselin + 2 more2026-02-18🤖 cs.AI

Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes

Este paper propone un marco novedoso que combina la destilación de conocimiento de modelos visuales-lingüísticos grandes con la infusión de sub-grafos de conocimiento de ConceptNet para mejorar significativamente la detección de memes tóxicos mediante un enfoque neurosimbólico híbrido.

Rahul Garg, Trilok Padhi, Hemang Jain + 2 more2026-02-18💬 cs.CL

← Anterior Siguiente →