Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este artigo propõe um framework de pré-treinamento supervisionado sintético que integra lógica anatômica realista e restrições topológicas para superar as limitações de métodos baseados em formas genéricas, resultando em um desempenho superior e escalável para segmentação médica 3D sem violar a privacidade dos dados.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artigo propõe um novo quadro de síntese espacialmente desacoplada inspirado na física que resolve o conflito de aliasing de borda ao separar a geração de texturas da preservação de gradientes, permitindo que Transformers de Visão treinados com dados sintéticos superem métodos existentes na análise de imagens médicas 3D sem depender de dados reais de pacientes.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

O artigo apresenta o MLRecon, um sistema robusto e sem marcadores para reconstrução 3D de ultrassom livre que utiliza uma câmera RGB-D comum e modelos de visão fundacionais para realizar rastreamento de pose preciso e contínuo, superando as limitações de custo e deriva de métodos existentes e estabelecendo um novo padrão para imageamento volumétrico acessível em ambientes clínicos.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

O artigo apresenta o SHIELD8-UAV, um acelerador de hardware 8-bit sequencial e de baixo consumo que utiliza uma CNN 1D com quantização adaptativa e poda estruturada para realizar detecção acústica e rastreamento de drones em tempo real com alta eficiência energética e precisão em plataformas de borda.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

O artigo apresenta o A3Point, um novo framework de aprendizado latente adaptativo que melhora a robustez da segmentação semântica de nuvens de pontos LiDAR em condições climáticas adversas, mitigando a mudança semântica através da localização de regiões de deslocamento e do aprendizado de confusão semântica para otimizar o uso de diversas ampliações de dados.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabalho apresenta o AesEval-Bench, um benchmark abrangente e um conjunto de dados para avaliar e aprimorar a capacidade de Modelos de Visão e Linguagem (VLMs) em julgar a estética do design gráfico, superando as limitações de estudos anteriores através de uma avaliação sistemática e de um framework de treinamento inovador.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

O artigo apresenta o V-SONAR, um espaço de incorporação unificado de visão e linguagem que alinha codificadores visuais ao espaço SONAR existente, permitindo que modelos como o V-LCM superem os modelos state-of-the-art em tarefas multilíngues e multimodais, como legendagem de vídeo e compreensão de conceitos visuais, especialmente em idiomas de recursos limitados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL