Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Este artigo propõe a Rede de Sinergia de Atenção Canal-Espacial (CSASN), um novo framework de aprendizado multitarefa que combina extratores de características duais (EfficientNet e ViT) com mecanismos de atenção e funções de perda ponderadas para superar os desafios de desequilíbrio de dados e heterogeneidade morfológica no diagnóstico preciso de carcinomas tireoidianos raros por meio de imagens de ultrassom.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Este artigo caracteriza o Padrão de Ruído de Desfoque Sintético (SDNP) presente nas imagens em modo retrato do iPhone, propondo um método para sua modelagem e demonstrando como seu mascaramento melhora a precisão da verificação forense de origem da câmera e permite a rastreabilidade entre diferentes modelos e versões do iOS.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Este artigo propõe o MoB (Multi-Objective Balanced Covering), um método de poda de tokens visuais que reformula o problema como uma cobertura bi-objetiva com limites de erro prováveis, permitindo um equilíbrio ótimo entre alinhamento de prompts e preservação visual que mantém a performance de modelos MLLM avançados com uma redução drástica no número de tokens.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Este artigo apresenta o conjunto de dados BAH, um recurso multimodal com 1.427 vídeos de 300 participantes, destinado ao reconhecimento automático de ambivalência e hesitação em intervenções digitais de mudança comportamental, incluindo anotações de especialistas e resultados de benchmarks que destacam a necessidade de modelos avançados para essa tarefa.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

O artigo apresenta o EgoWorld, um novo framework que supera as limitações dos métodos atuais ao traduzir observações exocêntricas ricas (como nuvens de pontos, poses 3D das mãos e descrições textuais) em visões egocêntricas realistas e semanticamente coerentes, alcançando desempenho superior e generalização robusta em múltiplos conjuntos de dados e cenários do mundo real.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Este trabalho propõe o Fast Equivariant Imaging (FEI), um novo quadro de aprendizado não supervisionado que utiliza multiplicadores de Lagrange e desruidores Plug-and-Play para acelerar o treinamento de redes de imagem em até 10 vezes e melhorar o desempenho em tarefas como reconstrução de CT e preenchimento de imagens, sem a necessidade de dados com rótulos.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

VITA: Vision-to-Action Flow Matching Policy

O artigo apresenta o VITA, um framework de aprendizado de políticas baseado em flow matching que elimina a necessidade de amostragem iterativa e condicionamento visual durante a geração, mapeando diretamente representações visuais para ações latentes através de um autoencoder e decodificação latente, resultando em inferência significativamente mais rápida e desempenho competitivo em tarefas de simulação e do mundo real.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Reinforcing Video Reasoning Segmentation to Think Before It Segments

O artigo apresenta o Veason-R1, um modelo especializado em segmentação de vídeo baseada em raciocínio que, ao utilizar otimização de política relativa em grupo (GRPO) combinada com cadeias de pensamento (CoT), supera os métodos anteriores ao priorizar um raciocínio estruturado que melhora significativamente a precisão espacial, a consistência temporal e a robustez contra alucinações.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs