Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

O artigo apresenta o AFRO, um framework de aprendizado auto-supervisionado que gera representações 3D dinâmicas e conscientes de ações para robótica, superando métodos existentes ao modelar transições causais sem necessidade de supervisão por reconstrução geométrica ou dados de ação, resultando em taxas de sucesso significativamente maiores em tarefas de manipulação.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

O artigo AVGGT propõe um esquema de aceleração sem treinamento que, baseado na análise das funções das camadas de atenção global, converte camadas iniciais em atenção de quadro e subsampleia as camadas finais, resultando em ganhos de velocidade de 2x a 10x em modelos como VGGT e π3\pi^3 sem comprometer a precisão em cenários de visão 3D multi-visão densa.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

O artigo apresenta o LiM-YOLO, um detector de navios otimizado para imagens de sensoriamento remoto que, ao deslocar os níveis da pirâmide de características de P3-P5 para P2-P4 e empregar normalização por grupos, resolve desafios de escala e estabilidade de treinamento, alcançando precisão superior com menos parâmetros.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este artigo apresenta o DivGenBench, um novo benchmark para quantificar o colapso de modo de preferência em modelos de difusão, e propõe o D²-Align, um framework que mitiga esse problema ao corrigir direcionalmente o sinal de recompensa, preservando assim a diversidade gerativa sem comprometer a qualidade.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Este artigo propõe um método inovador para detecção de imagens geradas por IA que explora a generalização dos componentes finais comuns das arquiteturas de geradores, alcançando uma precisão média de 98,83% em testes com geradores não vistos ao treinar um detector para distinguir imagens reais de versões "contaminadas" por esses componentes.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

O artigo apresenta o CLEAR-Mamba, um framework aprimorado baseado em MedMamba que utiliza uma camada de condicionamento adaptativo (HaC) e um esquema de previsão consciente da confiabilidade (RaP) para superar as limitações de generalização e confiabilidade na classificação de angiografias oftalmológicas multimodais (FFA e ICGA), demonstrando desempenho superior em um novo conjunto de dados de grande escala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

O artigo apresenta o Test-Time Correction (TTC), um método sem treinamento que utiliza o quadro inicial como âncora estável para calibrar estados intermediários e corrigir o acúmulo de erros em modelos autoregressivos de difusão destilados, permitindo a geração de vídeos longos de alta qualidade com custo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

O artigo apresenta o RoSE, um novo método que reformula a estimativa de normais monoculares como uma tarefa de estimativa de sequências de sombreamento utilizando modelos generativos de imagem para vídeo, superando as limitações de alinhamento 3D dos métodos existentes e alcançando desempenho de última geração em benchmarks reais.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artigo propõe um framework de orçamentação de picos consciente de energia para aprendizado contínuo em redes neurais de spiking, que integra replay de experiência e agendamento adaptativo para otimizar simultaneamente a precisão e a eficiência energética em sistemas de visão neuromórfica, demonstrando melhorias significativas tanto em dados baseados em quadros quanto em eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

O artigo apresenta o CoPeDiT, um modelo de difusão latente unificado equipado com percepção de completude que, ao inferir automaticamente estados de dados ausentes sem necessidade de guias externos, supera os métodos atuais na síntese de alta fidelidade e consistência estrutural de ressonâncias magnéticas 3D.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess