FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

O artigo apresenta o FedEU, um framework de otimização federada que utiliza modelagem de incerteza evidencial e incorporações de características específicas do cliente para aprimorar o ajuste fino de modelos fundamentais de visão em imagens de sensoriamento remoto, garantindo agregação global adaptativa e resultados mais robustos em ambientes heterogêneos.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

O artigo apresenta o EVLF (Fusão Precoce Visão-Linguagem), um método plug-and-play para distilação de conjuntos de dados baseado em difusão que alinha embeddings textuais e visuais no início do processo de geração, superando a dominância de prompts textuais para produzir dados sintéticos mais fiéis e melhorar a precisão em tarefas de classificação.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Este artigo apresenta uma Rede de Desacoplamento e Recuperação Multimodal que melhora a detecção robusta de objetos 3D ao separar características invariantes e específicas de cada modalidade (LiDAR e câmera) para compensar falhas causadas por corrupção de dados, utilizando uma fusão adaptativa de especialistas que supera os modelos existentes tanto em dados limpos quanto corrompidos.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

O artigo apresenta o RobustSCI, o primeiro estudo focado na restauração de imagens comprimidas de vídeo (SCI) a partir de medições degradadas por desfoque de movimento e baixa luminosidade, utilizando um novo benchmark, uma arquitetura com blocos de atenção especializados e uma rede em cascata para superar as limitações dos métodos atuais de reconstrução.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

O artigo apresenta o RayD3D, um método inovador que melhora a robustez da detecção 3D multi-visão em cenários do mundo real ao transferir conhecimento de profundidade essencial ao longo de raios ópticos, evitando a propagação de informações irrelevantes do LiDAR e superando modelos existentes sem aumentar os custos de inferência.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

O artigo apresenta o DocCogito, um quadro unificado que alinha a cognição de layout com raciocínio fundamentado em nível de etapa para compreensão de documentos, utilizando um torre de layout leve e uma Cadeia Visual-Semântica (VSC) para supervisionar um raciocínio intermediário estruturado e alinhado com evidências regionais, alcançando resultados state-of-the-art em múltiplos benchmarks.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Este artigo estabelece uma relação unificada entre modelos de derivação (drifting) e modelos baseados em pontuação (score-based), demonstrando que a derivação com kernel Gaussiano equivale a uma formulação de correspondência de pontuação em distribuições suavizadas e fornecendo limites de erro rigorosos para kernels Laplace.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

O artigo apresenta o EvolveReason, um paradigma de raciocínio autoevolutivo que combina um conjunto de dados de cadeia de pensamento (CoT-Face), captura de distribuição no espaço latente de falsificações e uma estratégia de exploração por aprendizado por reforço para superar as limitações de alucinação e falta de detalhe dos métodos existentes, oferecendo identificação de deepfakes faciais com alto desempenho e explicações textuais confiáveis.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Este trabalho apresenta o SketchGraphNet, uma arquitetura híbrida de grafos que combina passagem de mensagens local com um mecanismo de atenção global eficiente em memória para reconhecimento de esboços em larga escala, alcançando alto desempenho no novo benchmark SketchGraph sem depender de codificações auxiliares.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

O artigo apresenta o ACCURATE, um framework de reconstrução 3D robusto que combina redes neurais de segmentação com um algoritmo de otimização geométrica para reconstruir com alta precisão corpos contínuos longos e finos, como cateteres, a partir de imagens biplanares, superando as limitações de métodos existentes em relação a oclusões e formas complexas.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Este artigo propõe uma abordagem geométrica semântica que recupera a escala métrica absoluta de imagens de UAV usando veículos pequenos como âncoras, permitindo o alinhamento preciso de características com imagens de satélite e melhorando significativamente a robustez da geo-localização cruzada em cenários de escala desconhecida.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

O artigo propõe o UniLongGen, uma estratégia de inferência sem treinamento que melhora a geração de imagens interleaved de longo horizonte ao curar dinamicamente o contexto e descartar sinais visuais interferentes, superando assim o colapso na qualidade causado pela acumulação de "poluição" visual.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

O artigo apresenta o CONSTANT, um modelo de difusão inovador para geração de escrita manuscrita em uma única amostra que utiliza Quantização Consciente de Estilo e Aprendizado Contrastivo de Patch para superar as limitações existentes na captura de características complexas e diversas da caligrafia humana.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

O artigo DreamSAC apresenta um framework que supera a limitação de generalização extrapolação de modelos de mundo aprendidos ao combinar uma estratégia de exploração por simetria, motivada intrinsecamente por um bônus de curiosidade baseado em Hamiltoniano, com um modelo de mundo que utiliza aprendizado contrastivo para identificar leis de conservação a partir de observações brutas, resultando em desempenho superior em simulações físicas 3D.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

O artigo apresenta o ReconDrive, um framework feed-forward inovador que adapta o modelo de fundação VGGT para gerar rapidamente representações 4D Gaussianas de alta fidelidade de cenas de direção autônoma, superando as limitações de qualidade dos métodos existentes e a lentidão das otimizações por cena, oferecendo assim uma solução escalável para simulação realista.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Este artigo apresenta um framework baseado em inferência ativa para reconhecimento de microgestos, que utiliza amostragem temporal guiada por Energia Livre Esperada (EFE) e aprendizado adaptativo orientado pela incerteza para superar desafios como baixa amplitude, ruído e variabilidade inter-subjetiva, demonstrando melhorias consistentes no conjunto de dados SMG.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

O artigo apresenta o PureCC, um método inovador de personalização de conceitos que utiliza um objetivo de aprendizado desacoplado e um pipeline de treinamento de dupla ramificação para alcançar alta fidelidade na geração de imagens personalizadas enquanto preserva significativamente o comportamento e as capacidades originais do modelo.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

O artigo apresenta o Brain-WM, um modelo de mundo pioneiro para glioblastoma que utiliza uma arquitetura inovadora de Mixture-of-Transformers em formato de Y para unificar a previsão de tratamentos e a geração de futuras ressonâncias magnéticas, capturando assim a dinâmica coevolutiva entre o tumor e as intervenções terapêuticas para otimizar os resultados clínicos.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs