CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

O artigo apresenta o CASR-Net, uma rede de aprendizado profundo de três estágios que combina pré-processamento avançado, um codificador DenseNet121 e um decodificador Self-ONN para realizar a segmentação e refinamento precisos de artérias coronárias em angiogramas, superando modelos existentes e oferecendo uma ferramenta robusta para auxiliar no diagnóstico clínico.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

O artigo apresenta o PrismAudio, um framework inovador que integra Aprendizado por Reforço com raciocínio Chain-of-Thought decomposto e recompensas multidimensionais para resolver o problema de entrelaçamento de objetivos na geração de áudio a partir de vídeo, alcançando desempenho de ponta em consistência semântica, sincronia temporal, qualidade estética e precisão espacial.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Este artigo apresenta o SSMP, um novo método de previsão mascarada auto-ajustável e auto-corretivo que supera as abordagens tradicionais de "seleção-então-classificação" na geração automática de trailers de filmes, alcançando resultados state-of-the-art através de modelagem contextual bidirecional e um mecanismo de correção progressiva que imita o trabalho de editores humanos.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Este artigo apresenta o LGANet++, uma nova estrutura de registro de imagens deformáveis não supervisionada que utiliza um mecanismo de atenção local-global e decomposição de imagens para superar os métodos existentes, demonstrando desempenho superior em diversas tarefas de registro médico através de cinco conjuntos de dados públicos.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

O artigo apresenta o VideoTemp-o3, um framework unificado de pensamento agencial para vídeos que harmoniza a localização temporal e a compreensão de vídeo, superando as limitações de métodos existentes através de um mecanismo de mascaramento unificado, recompensas dedicadas para reforço e um pipeline de dados de alta qualidade, resultando em desempenho superior na compreensão e localização em vídeos longos.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

O artigo apresenta o WristMIR, um framework de recuperação de radiografias de punho pediátricas que utiliza relatórios radiológicos estruturados e localização específica de ossos para realizar uma busca em duas etapas (global e regional), demonstrando melhorias significativas na precisão da recuperação de casos e no diagnóstico de fraturas em comparação com abordagens existentes.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs