SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

O artigo apresenta o SpatialMem, um sistema baseado em memória que utiliza uma estrutura espacial métrica 3D como índice interpretável para permitir a recuperação e perguntas e respostas (QA) fundamentadas em linguagem a partir de vídeos egocêntricos de longo alcance, demonstrando robustez em cenários reais sem a necessidade de sensores especializados.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

O artigo propõe o SRA 2, um framework leve e intrínseco que alinha as características latentes intermediárias de transformadores de difusão com recursos de VAEs pré-treinados via uma camada de projeção simples, acelerando significativamente o treinamento e melhorando a qualidade de geração sem a sobrecarga computacional de modelos externos ou configurações duplas.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

O artigo apresenta o SpatialReward, um modelo de recompensa que utiliza raciocínio espacial explícito para superar a lacuna de percepção no aprendizado por reforço online, oferecendo sinais de avaliação mais precisos e melhorando significativamente o desempenho em tarefas de edição de imagem.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

O artigo apresenta a (MGS)2^2-Net, um framework inovador para geolocalização cruzada que supera as limitações de métodos existentes ao unificar a adaptação de escala micro-geométrica e o filtragem de estrutura macro-geométrica para alinhar com precisão imagens aéreas oblíquas e de satélite, alcançando desempenho state-of-the-art em benchmarks públicos.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

O artigo apresenta o MiDAS, um sistema de código aberto e agnóstico à plataforma que permite a aquisição não invasiva e sincronizada de dados multimodais para cirurgia robótica minimamente invasiva, validado em robôs Raven-II e da Vinci Xi e acompanhado de um novo conjunto de dados anotados que inclui tarefas de sutura de reparo de hérnia.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

O artigo apresenta o DAV-GSWT, um framework eficiente em dados que combina priores de difusão e amostragem ativa de vistas para sintetizar "Wang Tiles" de Gaussian Splatting de alta fidelidade a partir de observações mínimas, reduzindo significativamente a necessidade de dados de entrada enquanto mantém a integridade visual e o desempenho para ambientes virtuais em grande escala.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

O artigo apresenta o RobSelf, um modelo auto-supervisionado que supera os desafios da super-resolução cruzada em dados do mundo real com desalinhamento espacial complexo, otimizando simultaneamente um tradutor de características e um filtro de referência para alcançar desempenho superior e maior eficiência em comparação com métodos existentes.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

O artigo apresenta o UrbanAlign, um método pós-hoc que alinha modelos de linguagem e visão congelados às preferências humanas em tarefas urbanas sem reentrenamento, utilizando uma pipeline de três estágios que extrai conceitos e calibra pontuações via regressão, alcançando desempenho superior e total interpretabilidade no conjunto de dados Place Pulse 2.0.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

O artigo apresenta o StoryTailor, um pipeline de aprendizado zero-shot que roda em uma única GPU RTX 4090 e gera narrativas visuais multitempo ricas em ação, preservando a identidade dos sujeitos e a continuidade do fundo por meio de três módulos sinérgicos: Atenção Centrada em Gaussiana (GCA), Reponderação de Valores Singulares Impulsionada por Ação (AB-SVR) e Cache de Esquecimento Seletivo (SFC).

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

O artigo apresenta o UniVBench, um novo benchmark unificado e uma avaliação agêntica (UniV-Eval) projetados para superar as limitações dos métodos atuais ao avaliar de forma integrada e rigorosa as capacidades de compreensão, geração, edição e reconstrução de vídeo em modelos de fundação de vídeo, utilizando um conjunto de dados diversificado e complexo criado por humanos.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

O artigo apresenta o DPCache, uma nova estrutura de aceleração sem treinamento para modelos de difusão que formula a amostragem como um problema de planejamento de caminho global, utilizando um tensor de custo e programação dinâmica para selecionar timesteps-chave ótimos, resultando em uma aceleração significativa com ganhos de qualidade superiores aos métodos existentes.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

O artigo apresenta o Synthetic Visual Genome 2 (SVG2), um conjunto de dados massivo e diversificado de grafos de cena espaciais e temporais em vídeos gerado por um pipeline automatizado, e o modelo TRaSER, que utiliza esse recurso para superar os métodos existentes na geração de grafos de cena e melhorar o desempenho em tarefas de resposta a perguntas sobre vídeos.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Este artigo propõe um novo quadro de desembaçamento adaptativo e dinâmico que utiliza um mecanismo de otimização em malha fechada, combinando feedback de tarefas downstream e instruções em texto, para ajustar a remoção de neblina em tempo real sem necessidade de retreinamento, atendendo assim às necessidades específicas de diversas aplicações de visão computacional.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Este artigo apresenta o PanScale, o primeiro grande conjunto de dados e benchmark para fusão de imagens multiespectrais em múltiplas escalas, e propõe o ScaleFormer, uma nova arquitetura baseada em transformadores que supera os métodos atuais ao generalizar eficazmente para resoluções não vistas durante o treinamento.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

O artigo apresenta o Mobile-VTON, um framework de alta fidelidade e preservação de privacidade que permite a realização de provadores virtuais totalmente offline em dispositivos móveis, utilizando uma arquitetura modular otimizada que combina destilação de conhecimento, geração condicionada ao vestuário e alinhamento robusto para superar as limitações de segurança e desempenho das soluções baseadas em nuvem.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs