IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

O artigo apresenta o IdGlow, um framework inovador sem máscaras baseado em dois estágios que resolve o dilema estabilidade-plasticidade na geração de imagens com múltiplos sujeitos, harmonizando identidades diversas e transformações estruturais complexas, como o envelhecimento, através de agendamento adaptativo de timesteps, síntese de prompts orientada por VLM e otimização direta de preferências (DPO).

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artigo apresenta o primeiro conjunto de dados dinâmicos de imagens hiperespectrais (DynaSpec), um novo modelo de transformação baseado em propagação de características (PG-SVRT) e um benchmark para reconstrução espectral compressiva em nível de vídeo, superando as limitações de consistência temporal e qualidade de reconstrução dos métodos baseados em imagens.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

O artigo propõe o framework MoLRE, que especializa modelos fundamentais de imagem médica através de uma mistura de adaptadores de baixo rank e roteamento suave, demonstrando melhorias consistentes na detecção de achados em tomografias computadorizadas de crânio ao longo de seis modelos de ponta, com ganhos particularmente expressivos em modelos de domínio geral e médico.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

O artigo propõe o STMI, um novo framework de Re-Identificação Multi-Modal que integra modulação de características guiada por segmentação, realocação adaptativa de tokens e interação hipergráfica cruzada para superar as limitações de filtragem rígida e fusão simples, resultando em maior robustez e precisão na extração de características discriminativas.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

O TokenSplat é um framework feed-forward que realiza a reconstrução 3D e a estimativa de pose de câmeras a partir de imagens multiview sem pose prévia, utilizando um módulo de previsão de Gaussians alinhados a tokens e um decodificador assimétrico para garantir alta fidelidade de reconstrução e precisão de pose sem necessidade de refinamento iterativo.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artigo apresenta um sistema de reconstrução para paredes internas de tubulações industriais que utiliza endoscópios e técnicas de costura de imagens panorâmicas para transformar vídeos anulares em imagens planares detalhadas, otimizando significativamente a eficiência e a precisão na detecção de defeitos em comparação com métodos tradicionais.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

O UniHM é um framework pioneiro que utiliza um modelo de linguagem e visão para planejar manipulação destreza de mãos robóticas a partir de instruções de linguagem livre, empregando um tokenizador unificado para generalizar entre diferentes morfologias e um módulo de refinamento guiado por física para garantir sequências de movimento realistas e fisicamente viáveis.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs