CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabalho apresenta o CheXmask-U, um método e um grande conjunto de dados que quantificam a incerteza na segmentação baseada em marcos anatômicos de radiografias torácicas, permitindo a identificação de previsões não confiáveis e a detecção de dados fora de distribuição para promover o uso seguro e robusto dessas técnicas.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

O artigo apresenta o MRD, uma abordagem que utiliza renderização diferenciável baseada em física para sondar a compreensão implícita de cenas 3D em modelos de visão, encontrando parâmetros de cena fisicamente distintos que produzem as mesmas ativações do modelo (metâmeros) para analisar sua sensibilidade a atributos como forma e material.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL3^3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Este artigo apresenta o framework DL³M, que integra o classificador híbrido MobileCoAtNet com grandes modelos de linguagem para gerar raciocínio clínico estruturado a partir de imagens endoscópicas, demonstrando que, embora a combinação melhore a qualidade das explicações, os modelos atuais ainda carecem da estabilidade necessária para decisões médicas de alto risco.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

O artigo apresenta o Object-WIPER, um framework sem treinamento baseado em transformadores de difusão texto-para-vídeo que remove dinamicamente objetos e seus efeitos visuais associados de vídeos, preenchendo as áreas resultantes com conteúdo semanticamente consistente e temporalmente coerente, além de propor uma nova métrica de avaliação e um benchmark específico para validar seu desempenho superior em relação a métodos existentes.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

O artigo apresenta o RepSFNet, uma rede leve e eficiente que utiliza reparametrização estrutural e fusão de características para realizar contagem de multidões precisa e em tempo real, superando desafios como variações de escala e oclusão enquanto reduz significativamente a latência de inferência em comparação com métodos atuais.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

O artigo apresenta o DyMo, um novo framework de seleção dinâmica de modalidades em tempo de inferência que resolve o dilema entre descartar ou imputar dados faltantes ao identificar adaptativamente modalidades recuperadas confiáveis, maximizando a informação relevante para a tarefa e superando os métodos atuais em cenários de classificação multimodal incompleta.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabalho propõe um framework híbrido de registro e segmentação para análise de tumores hepáticos, demonstrando que, embora seja possível transferir rótulos entre modalidades para estruturas visíveis, a ausência de características discriminativas nos tumores na tomografia computadorizada intraoperatória impede a segmentação eficaz, revelando as limitações atuais da supervisão fraca baseada em registro.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabalho apresenta o método LUMIR25, que alcançou o primeiro lugar no desafio LUMIR25 ao realizar registro zero-shot de ressonância magnética cerebral multi-contraste através da análise de vieses indutivos específicos e estratégias como perda baseada em MIND, randomização de intensidade e otimização específica de instância, permitindo generalização robusta entre domínios sem síntese explícita de imagens.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

O artigo apresenta o Agent Banana, um framework agencial hierárquico que utiliza mecanismos de "Context Folding" e "Image Layer Decomposition" para realizar edição de imagens de alta fidelidade e multi-turno em resolução nativa, superando desafios como excesso de edição e perda de fidelidade, e é avaliado através do novo benchmark HDD-Bench com imagens em 4K.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs