ROBUST-MIPS: A Combined Skeletal Pose and Instance Segmentation Dataset for Laparoscopic Surgical Instruments

El artículo presenta ROBUST-MIPS, un nuevo conjunto de datos que combina anotaciones de pose esquelética y segmentación de instancias de instrumentos quirúrgicos laparoscópicos para superar las limitaciones de datos anotados y facilitar el estudio comparativo de estos métodos en tecnologías de intervención asistida por computadora.

Zhe Han, Charlie Budd, Gongyu Zhang + 3 more2026-03-05💻 cs

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow es un paquete de código abierto en Python que simula dispositivos de puntos cuánticos mediante un modelo físico autoconsistente y módulos de ruido personalizables para generar datos sintéticos realistas con etiquetas de verdad absoluta, facilitando así el desarrollo y la validación de enfoques de aprendizaje automático en este campo.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

El artículo presenta Vision-Zero, un marco de auto-juego multiagente libre de etiquetas que entrena modelos de visión y lenguaje mediante juegos estratégicos generados a partir de imágenes arbitrarias y una optimización iterativa de políticas, logrando mejoras sostenibles y un rendimiento superior en diversas tareas de razonamiento visual sin depender de verificación humana.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Este trabajo presenta una investigación integral sobre la generación y edición de visuales estructurados, que incluye la creación de un gran dataset con razonamiento, el entrenamiento de un modelo unificado basado en FLUX.1 y VLM, y el lanzamiento de StructBench y StructScore para evaluar la precisión factual, demostrando que la inferencia con razonamiento mejora significativamente el rendimiento frente a los sistemas existentes.

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

A Geometry-Based View of Mahalanobis OOD Detection

Este estudio demuestra que el rendimiento de la detección de distribuciones fuera de entrenamiento (OOD) basada en Mahalanobis depende críticamente de la geometría de las representaciones de características, identificando la estructura espectral y la dimensionalidad intrínseca local como predictores clave, y proponiendo una normalización radial escalada que optimiza la detección al modificar los radios de las características preservando sus direcciones.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Este artículo presenta el Predictor de Conceptos Guiado por Priors (PCP), un marco de aprendizaje débilmente supervisado que elimina la necesidad de anotaciones de conceptos explícitas al aprovechar priors a nivel de clase y mecanismos de refinamiento para lograr diagnósticos médicos interpretables con un rendimiento superior a los modelos basados en lenguaje cero-shot y comparable a los modelos totalmente supervisados.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs