cs.CV artigos | Gist.Science

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

O MedDIFT é um framework de correspondência 3D para imagens médicas que, sem necessidade de treinamento, utiliza características multiescala de um modelo de difusão latente pré-treinado para gerar descritores de voxel robustos e identificar correspondências anatômicas com alta precisão.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Este trabalho apresenta o CheXmask-U, um método e um grande conjunto de dados que quantificam a incerteza na segmentação baseada em marcos anatômicos de radiografias torácicas, permitindo a identificação de previsões não confiáveis e a detecção de dados fora de distribuição para promover o uso seguro e robusto dessas técnicas.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

O artigo apresenta o MRD, uma abordagem que utiliza renderização diferenciável baseada em física para sondar a compreensão implícita de cenas 3D em modelos de visão, encontrando parâmetros de cena fisicamente distintos que produzem as mesmas ativações do modelo (metâmeros) para analisar sua sensibilidade a atributos como forma e material.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Este artigo apresenta o framework DL³M, que integra o classificador híbrido MobileCoAtNet com grandes modelos de linguagem para gerar raciocínio clínico estruturado a partir de imagens endoscópicas, demonstrando que, embora a combinação melhore a qualidade das explicações, os modelos atuais ainda carecem da estabilidade necessária para decisões médicas de alto risco.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

O artigo apresenta o FALCON-SFOD, um framework que melhora a detecção de objetos sem fonte ao utilizar priors de modelos fundacionais para regularizar o espaço de características e focar nas regiões de interesse, superando as limitações das abordagens atuais baseadas em auto-rotulagem.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

O artigo apresenta o REVEALER, um quadro unificado que utiliza raciocínio visual guiado por reforço para avaliar com precisão e interpretabilidade o alinhamento elemento a elemento entre prompts textuais e imagens geradas, superando os métodos existentes em desempenho e eficiência.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

O artigo apresenta o Object-WIPER, um framework sem treinamento baseado em transformadores de difusão texto-para-vídeo que remove dinamicamente objetos e seus efeitos visuais associados de vídeos, preenchendo as áreas resultantes com conteúdo semanticamente consistente e temporalmente coerente, além de propor uma nova métrica de avaliação e um benchmark específico para validar seu desempenho superior em relação a métodos existentes.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Este artigo apresenta o LookBench, um benchmark aberto, vivo e holístico para recuperação de imagens de moda em cenários de e-commerce real, que inclui imagens de produtos recentes e geradas por IA com carimbos de data para avaliação livre de contaminação, desafiando modelos existentes e oferecendo recursos públicos como conjunto de dados e modelos de ponta.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

O PyraTok é um novo tokenizador piramidal alinhado à linguagem que, ao aprender latentes discretos estruturados semanticamente em múltiplas resoluções espaciotemporais, supera o estado da arte na reconstrução de vídeo, geração texto-para-vídeo e tarefas de compreensão visual com transferência zero-shot robusta.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Este trabalho apresenta o Emotion-LLaMAv2, um novo modelo de linguagem multimodal com arquitetura end-to-end e fusão aprimorada, juntamente com o benchmark MMEVerse, que unifica e reanota 12 conjuntos de dados públicos para criar um padrão escalável de treinamento e avaliação para reconhecimento e raciocínio emocional.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

O artigo apresenta o FineVAU, um novo benchmark para a compreensão de anomalias em vídeos que introduz o FVScore, uma métrica de avaliação alinhada com a percepção humana, e o conjunto de dados FineW3, superando as limitações das abordagens atuais ao focar na compreensão detalhada de eventos, entidades e locais em vídeos anômalos.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

O artigo apresenta o RepSFNet, uma rede leve e eficiente que utiliza reparametrização estrutural e fusão de características para realizar contagem de multidões precisa e em tempo real, superando desafios como variações de escala e oclusão enquanto reduz significativamente a latência de inferência em comparação com métodos atuais.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

O artigo apresenta o DyMo, um novo framework de seleção dinâmica de modalidades em tempo de inferência que resolve o dilema entre descartar ou imputar dados faltantes ao identificar adaptativamente modalidades recuperadas confiáveis, maximizando a informação relevante para a tarefa e superando os métodos atuais em cenários de classificação multimodal incompleta.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Cross-Modal Purification and Fusion for Small-Object RGB-D Transmission-Line Defect Detection

Este artigo apresenta o CMAFNet, uma rede de fusão e alinhamento multimodal que combina dados RGB e de profundidade por meio de um paradigma de purificação e integração para detectar defeitos em linhas de transmissão, alcançando desempenho superior ao estado da arte ao lidar com objetos pequenos e fundos complexos.

Jiaming Cui, Wenqiang Li, Shuai Zhou + 2 more2026-02-24🤖 cs.AI

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Este trabalho propõe um framework híbrido de registro e segmentação para análise de tumores hepáticos, demonstrando que, embora seja possível transferir rótulos entre modalidades para estruturas visíveis, a ausência de características discriminativas nos tumores na tomografia computadorizada intraoperatória impede a segmentação eficaz, revelando as limitações atuais da supervisão fraca baseada em registro.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Este trabalho apresenta o método LUMIR25, que alcançou o primeiro lugar no desafio LUMIR25 ao realizar registro zero-shot de ressonância magnética cerebral multi-contraste através da análise de vieses indutivos específicos e estratégias como perda baseada em MIND, randomização de intensidade e otimização específica de instância, permitindo generalização robusta entre domínios sem síntese explícita de imagens.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Este artigo apresenta o ViewRope, um método de incorporação posicional rotativa sensível à geometria que injeta direções de raios de câmera em modelos de mundo de vídeo para garantir consistência espacial 3D de longo prazo e reduzir alucinações, complementado por uma atenção esparsa eficiente e uma nova suite de avaliação chamada ViewBench.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

O artigo apresenta o Agent Banana, um framework agencial hierárquico que utiliza mecanismos de "Context Folding" e "Image Layer Decomposition" para realizar edição de imagens de alta fidelidade e multi-turno em resolução nativa, superando desafios como excesso de edição e perda de fidelidade, e é avaliado através do novo benchmark HDD-Bench com imagens em 4K.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu + 10 more2026-02-24💻 cs

Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Este artigo apresenta um método de detecção de objetos rápido e energeticamente eficiente para sistemas IoT, baseado na diferença de quadros e no modelo MobileNet, que supera os métodos end-to-end em precisão, eficiência e latência ao lidar com objetos em movimento rápido em dispositivos de borda.

Mas Nurul Achmadiah, Afaroj Ahamad, Chi-Chia Sun + 1 more2026-02-24💻 cs

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

O artigo apresenta o Tele-Omni, um framework unificado multimodal que integra modelos de linguagem e geradores baseados em difusão para realizar geração e edição de vídeo sob instruções diversas (texto, imagens e vídeos de referência) em um único modelo, superando as limitações de abordagens específicas de tarefa.

Jialun Liu, Tian Li, Xiao Cao + 20 more2026-02-24💻 cs

← Anterior Próximo →

cs.CV