Monocular Normal Estimation via Shading Sequence Estimation

O artigo apresenta o RoSE, um novo método que reformula a estimativa de normais monoculares como uma tarefa de estimativa de sequências de sombreamento utilizando modelos generativos de imagem para vídeo, superando as limitações de alinhamento 3D dos métodos existentes e alcançando desempenho de última geração em benchmarks reais.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artigo propõe um framework de orçamentação de picos consciente de energia para aprendizado contínuo em redes neurais de spiking, que integra replay de experiência e agendamento adaptativo para otimizar simultaneamente a precisão e a eficiência energética em sistemas de visão neuromórfica, demonstrando melhorias significativas tanto em dados baseados em quadros quanto em eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

O artigo apresenta o CoPeDiT, um modelo de difusão latente unificado equipado com percepção de completude que, ao inferir automaticamente estados de dados ausentes sem necessidade de guias externos, supera os métodos atuais na síntese de alta fidelidade e consistência estrutural de ressonâncias magnéticas 3D.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artigo apresenta uma abordagem de duplo pipeline para segmentação de imagens de aves que utiliza modelos fundamentais de 2025, alcançando resultados supervisionados superiores e desempenho zero-shot inédito ao combinar Grounding DINO 1.5 ou YOLOv11 para detecção com o Segment Anything Model 2.1 para geração de máscaras, sem necessidade de retreinamento do modelo de segmentação.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

O artigo apresenta o DOCFORGE-BENCH, o primeiro benchmark zero-shot unificado para detecção de falsificação de documentos, revelando que a falha generalizada dos métodos atuais em cenários práticos não se deve à falta de capacidade discriminativa, mas sim a uma calibração inadequada dos limiares de decisão devido à extrema raridade de pixels adulterados, o que exige adaptação de limiar em vez de retreinamento para viabilizar a implantação.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

O artigo apresenta o Pri4R, uma abordagem que aprimora modelos Visão-Linguagem-Ação (VLA) ao incorporar dinâmicas do mundo por meio da previsão de rastros de pontos 3D durante o treinamento, resultando em melhor desempenho em tarefas de manipulação física sem adicionar custo computacional ou complexidade na inferência.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Este artigo de revisão analisa o cenário de processadores de IA de ultra-baixo consumo, comparando arquiteturas heterogêneas, aceleradores neurais e processamento em sensor, e valida empiricamente essas abordagens através de benchmarks de um modelo de segmentação em três plataformas representativas (GAP9, STM32N6 e IMX500), demonstrando a superioridade do processamento em sensor em eficiência energética e latência.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

O artigo apresenta o Granulon, um modelo multimodal inovador baseado no DINOv3 que supera as limitações de entendimento visual de granularidade única ao introduzir um controlador de granularidade condicionado ao texto e um módulo de agregação adaptativa, permitindo um raciocínio unificado de "pixel a fino a grosso" que aumenta a precisão em cerca de 30% e reduz alucinações em 20%.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

O artigo apresenta o VisionCreator-R1, um agente nativo de geração visual aprimorado por reflexão e treinado com a metodologia de Co-Otimização Reflexão-Planejamento (RPCO), que supera o Gemini2.5Pro em tarefas de geração de imagens únicas e múltiplas ao resolver o desequilíbrio na otimização de planejamento e reflexão via aprendizado por reforço.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

O artigo apresenta o MuCTaL, um modelo de aprendizado profundo leve e generalizável treinado em quatro tipos de câncer para localizar tumores em imagens de patologia digital, demonstrando alta precisão nos dados de treinamento e capacidade de adaptação a tipos não vistos, como o adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

O artigo apresenta o HECTOR, um pipeline de geração de vídeo que permite controle composicional fino e híbrido, possibilitando a síntese de cenas dinâmicas com alta fidelidade e manipulação explícita de trajetórias, escalas e velocidades de objetos distintos a partir de referências estáticas e dinâmicas.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Este artigo apresenta uma avaliação adversarial sistemática que revela vulnerabilidades críticas e falhas sustentadas em três arquiteturas de modelos visão-linguagem para direção autônoma (Dolphins, OmniDrive e LeapVAD) quando submetidas a ataques de patch fisicamente realizáveis no simulador CARLA.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Este artigo apresenta a segmentação de consultas visuais (VQS) como um novo paradigma para localização precisa de objetos em vídeos, introduzindo o benchmark de grande escala VQS-4K e o método VQ-SAM, que supera as abordagens existentes ao combinar o SAM 2 com um mecanismo de memória adaptativa para gerar máscaras pixel a pixel de todas as ocorrências de um objeto.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Este artigo propõe uma família leve de adaptadores de decodificador, o Multi-Kernel Gated Adapter (MKGA), que utiliza campos receptivos complementares e mecanismos de portão semântico para mitigar a transferência negativa e melhorar a robustez na segmentação e diagnóstico de nódulos tireoidianos em ultrassonografia sob mudanças de domínio entre centros.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics