IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

IdGlow es un marco de dos etapas basado en modelos de difusión Flow Matching que resuelve el dilema estabilidad-plasticidad en la generación de imágenes multi-persona mediante programación de timesteps adaptativa, síntesis de prompts impulsada por VLM y optimización directa de preferencias (DPO), logrando así una armonización coherente de múltiples identidades con alta fidelidad facial y calidad estética.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artículo presenta DynaSpec, el primer conjunto de datos de imágenes hiperespectrales dinámicas de alta calidad, junto con el modelo PG-SVRT y un prototipo de benchmark, para superar las limitaciones de consistencia temporal y fidelidad espectral en la reconstrucción de video mediante imágenes espectrales compresivas.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

El artículo presenta HistoSelect, un marco de razonamiento para imágenes de diapositivas completas que imita el proceso de exploración humana mediante una recuperación guiada por preguntas y consciente del tejido, logrando una mayor eficiencia y precisión al reducir el uso de tokens visuales en un 70% mientras mejora la exactitud en tareas de preguntas y respuestas de patología.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

El artículo presenta STMI, un marco de aprendizaje multimodal para la reidentificación de objetos que integra modulación de características guiada por segmentación, reasignación de tokens semánticos e interacción hipergráfica entre modalidades para superar las limitaciones de filtrado y fusión existentes.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artículo presenta el primer estudio integral sobre la detección de la disposición de documentos en escenas para el idioma jemer, introduciendo un nuevo marco que incluye un conjunto de datos de entrenamiento, una herramienta de aumento de datos y modelos basados en YOLO con cajas delimitadoras orientadas para abordar los desafíos específicos de la escritura jemer y la falta de datos anotados.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artículo presenta un sistema de reconstrucción para paredes internas de tuberías industriales que utiliza endoscopios y técnicas de ensamblaje de imágenes panorámicas para convertir el video en vistas planas detalladas, mejorando significativamente la eficiencia y precisión en la detección de defectos en comparación con los métodos tradicionales.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs