Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

O artigo apresenta o CoPeDiT, um modelo de difusão latente unificado equipado com percepção de completude que, ao inferir automaticamente estados de dados ausentes sem necessidade de guias externos, supera os métodos atuais na síntese de alta fidelidade e consistência estrutural de ressonâncias magnéticas 3D.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artigo apresenta uma abordagem de duplo pipeline para segmentação de imagens de aves que utiliza modelos fundamentais de 2025, alcançando resultados supervisionados superiores e desempenho zero-shot inédito ao combinar Grounding DINO 1.5 ou YOLOv11 para detecção com o Segment Anything Model 2.1 para geração de máscaras, sem necessidade de retreinamento do modelo de segmentação.

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

O artigo apresenta o DOCFORGE-BENCH, o primeiro benchmark zero-shot unificado para detecção de falsificação de documentos, revelando que a falha generalizada dos métodos atuais em cenários práticos não se deve à falta de capacidade discriminativa, mas sim a uma calibração inadequada dos limiares de decisão devido à extrema raridade de pixels adulterados, o que exige adaptação de limiar em vez de retreinamento para viabilizar a implantação.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

O artigo apresenta o Pri4R, uma abordagem que aprimora modelos Visão-Linguagem-Ação (VLA) ao incorporar dinâmicas do mundo por meio da previsão de rastros de pontos 3D durante o treinamento, resultando em melhor desempenho em tarefas de manipulação física sem adicionar custo computacional ou complexidade na inferência.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Este artigo de revisão analisa o cenário de processadores de IA de ultra-baixo consumo, comparando arquiteturas heterogêneas, aceleradores neurais e processamento em sensor, e valida empiricamente essas abordagens através de benchmarks de um modelo de segmentação em três plataformas representativas (GAP9, STM32N6 e IMX500), demonstrando a superioridade do processamento em sensor em eficiência energética e latência.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

O artigo apresenta o Granulon, um modelo multimodal inovador baseado no DINOv3 que supera as limitações de entendimento visual de granularidade única ao introduzir um controlador de granularidade condicionado ao texto e um módulo de agregação adaptativa, permitindo um raciocínio unificado de "pixel a fino a grosso" que aumenta a precisão em cerca de 30% e reduz alucinações em 20%.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming JinWed, 11 Ma💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

O artigo apresenta o VisionCreator-R1, um agente nativo de geração visual aprimorado por reflexão e treinado com a metodologia de Co-Otimização Reflexão-Planejamento (RPCO), que supera o Gemini2.5Pro em tarefas de geração de imagens únicas e múltiplas ao resolver o desequilíbrio na otimização de planejamento e reflexão via aprendizado por reforço.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin LuWed, 11 Ma💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

O artigo apresenta o MuCTaL, um modelo de aprendizado profundo leve e generalizável treinado em quatro tipos de câncer para localizar tumores em imagens de patologia digital, demonstrando alta precisão nos dados de treinamento e capacidade de adaptação a tipos não vistos, como o adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

O artigo apresenta o HECTOR, um pipeline de geração de vídeo que permite controle composicional fino e híbrido, possibilitando a síntese de cenas dinâmicas com alta fidelidade e manipulação explícita de trajetórias, escalas e velocidades de objetos distintos a partir de referências estáticas e dinâmicas.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang MaWed, 11 Ma💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Este artigo apresenta uma avaliação adversarial sistemática que revela vulnerabilidades críticas e falhas sustentadas em três arquiteturas de modelos visão-linguagem para direção autônoma (Dolphins, OmniDrive e LeapVAD) quando submetidas a ataques de patch fisicamente realizáveis no simulador CARLA.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs

Towards Visual Query Segmentation in the Wild

Este artigo apresenta a segmentação de consultas visuais (VQS) como um novo paradigma para localização precisa de objetos em vídeos, introduzindo o benchmark de grande escala VQS-4K e o método VQ-SAM, que supera as abordagens existentes ao combinar o SAM 2 com um mecanismo de memória adaptativa para gerar máscaras pixel a pixel de todas as ocorrências de um objeto.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng FanWed, 11 Ma💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Este artigo propõe uma família leve de adaptadores de decodificador, o Multi-Kernel Gated Adapter (MKGA), que utiliza campos receptivos complementares e mecanismos de portão semântico para mitigar a transferência negativa e melhorar a robustez na segmentação e diagnóstico de nódulos tireoidianos em ultrassonografia sob mudanças de domínio entre centros.

Maziar Sabouri, Nourhan Bayasi, Arman RahmimWed, 11 Ma🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

O artigo apresenta o MedCBR, um framework de raciocínio baseado em conceitos que integra diretrizes clínicas e modelos de linguagem-vídeo para melhorar a interpretabilidade e a precisão no diagnóstico médico, gerando narrativas clínicas estruturadas que emulam o raciocínio de especialistas.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin MousaviWed, 11 Ma🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

O artigo apresenta o Desafio Grandioso de Microexpressões de 2026 (MEGC2026), que introduz duas novas tarefas de Resposta a Perguntas Visuais (VQA) para vídeos de microexpressões — uma para sequências curtas e outra para vídeos longos — visando explorar as capacidades de raciocínio multimodal de modelos de linguagem e visão avançados na análise de emoções sutis.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs