STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

UniHM presenta el primer marco unificado para la manipulación hábil de manos robóticas guiada por comandos de lenguaje libre, que utiliza un tokenizador compartido para generalizar entre diferentes morfologías, un modelo de acción visión-lenguaje entrenado solo con datos de interacción humano-objeto y un módulo de refinamiento dinámico guiado por física para generar secuencias de manipulación realistas y físicamente viables.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

El artículo presenta DUCX, un marco de auditoría sistemática que descompone la injusticia en agentes médicos de rayos X al identificar fuentes específicas de sesgo demográfico en la exposición, transición y razonamiento de las herramientas, demostrando que las disparidades intermedias no son predecibles mediante evaluaciones de extremo a extremo y subrayando la necesidad de un desesgo a nivel de proceso para garantizar la equidad clínica.

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

Los autores proponen el Espacio de Alineación Funcional Neural (NFAS), un marco de representación basado en el cerebro que utiliza la descomposición de modos dinámicos para caracterizar la evolución dinámica de las representaciones en redes neuronales artificiales, revelando una organización estructurada y convergencia intermodal alineada con sistemas corticales biológicos.

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY es un marco multiagente que automatiza la conversión de artículos de investigación sobre NeRF en plugins ejecutables para Nerfstudio, logrando una calidad visual comparable a la de expertos humanos y reduciendo el tiempo de implementación de semanas a minutos mediante innovaciones específicas del dominio como gramáticas formales, síntesis de código basada en grafos y retroalimentación visual.

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs