Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

El artículo presenta HistoSelect, un marco de razonamiento para imágenes de diapositivas completas que imita el proceso de exploración humana mediante una recuperación guiada por preguntas y consciente del tejido, logrando una mayor eficiencia y precisión al reducir el uso de tokens visuales en un 70% mientras mejora la exactitud en tareas de preguntas y respuestas de patología.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM presenta el primer marco unificado para la manipulación hábil de manos robóticas guiada por comandos de lenguaje libre, que utiliza un tokenizador compartido para generalizar entre diferentes morfologías, un modelo de acción visión-lenguaje entrenado solo con datos de interacción humano-objeto y un módulo de refinamiento dinámico guiado por física para generar secuencias de manipulación realistas y físicamente viables.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

El artículo presenta DUCX, un marco de auditoría sistemática que descompone la injusticia en agentes médicos de rayos X al identificar fuentes específicas de sesgo demográfico en la exposición, transición y razonamiento de las herramientas, demostrando que las disparidades intermedias no son predecibles mediante evaluaciones de extremo a extremo y subrayando la necesidad de un desesgo a nivel de proceso para garantizar la equidad clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Los autores proponen el Espacio de Alineación Funcional Neural (NFAS), un marco de representación basado en el cerebro que utiliza la descomposición de modos dinámicos para caracterizar la evolución dinámica de las representaciones en redes neuronales artificiales, revelando una organización estructurada y convergencia intermodal alineada con sistemas corticales biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs