cs.CV artigos | Gist.Science

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

O Spinverse é um método de reconstrução de microestrutura a partir de ressonância magnética de difusão que utiliza um simulador de Bloch-Torrey totalmente diferenciável para inferir permeabilidades em faces de uma malha tetraédrica, permitindo a emergência de interfaces microestruturais sem alterar a conectividade da malha.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudo demonstra que uma abordagem multimodal, combinando recursos visuais e textuais com o modelo GPT-4.1-nano, supera métodos unimodais na previsão da dificuldade de itens de testes de alfabetização em visualização de dados para adultos dos EUA, evidenciando o potencial dos modelos de linguagem para análise psicométrica e desenvolvimento automatizado de itens.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Este trabalho propõe o método sFRC (Fourier Ring Correlation em pequenas regiões), que analisa a correlação entre imagens restauradas por aprendizado profundo e suas referências em pequenos patches para detectar e quantificar alucinações em tarefas de restauração de imagens médicas, como super-resolução e reconstrução de CT e MRI.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

O artigo propõe o PulseFocus, um método de inferência sem treinamento que mitiga os padrões de atenção difusa e o viés posicional em modelos de linguagem e visão (VLMs) de raciocínio, melhorando significativamente o desempenho em tarefas de compreensão de múltiplas imagens ao estruturar o raciocínio em blocos de planejamento e foco com gateamento de atenção suave.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudo apresenta uma avaliação sistemática de métodos de compressão de redes neurais — especificamente poda, quantização e destilação de conhecimento — para classificação de imagens hiperespectrais, demonstrando que é possível reduzir significativamente o tamanho e o custo computacional dos modelos mantendo um desempenho competitivo em plataformas de recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este estudo avalia a viabilidade de modelos de linguagem multimodal para detecção de anomalias em vídeo em cenários reais, revelando que, embora instruções específicas possam melhorar significativamente o desempenho, os modelos apresentam um viés conservador que limita severamente a recall, tornando-os ainda inadequados para aplicações de vigilância sem ajustes adicionais.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

O artigo propõe o FOZO, um método inovador de otimização de prompts sem retropropagação para adaptação em tempo de teste que, ao utilizar estimativas de gradiente de ordem zero e estatísticas de recursos intermediários, supera métodos baseados em gradiente e técnicas existentes em cenários com recursos limitados e modelos quantizados.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

O artigo apresenta o Real-IISR, um novo framework autoregressivo unificado e o conjunto de dados FLIR-IISR para super-resolução de imagens infravermelhas em cenários reais, projetados para superar as limitações de simulações anteriores ao reconstruir estruturas térmicas e de fundo com consistência física através de módulos de orientação térmico-estrutural e correção de viés de degradação.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentário de panorama avalia a família GPT-5 como raciocinador clínico multimodal, demonstrando avanços significativos na síntese de dados textuais e de imagem que superam o GPT-4o, mas revelando que, embora represente um progresso em direção ao raciocínio integrado, os modelos generalistas ainda não substituem sistemas especializados em tarefas críticas de percepção como neurorradiologia e mamografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Este artigo apresenta a arquitetura GAMDSS, uma estratégia inovadora de seleção dinâmica de quadros-chave que melhora o reconhecimento de microexpressões ao mitigar erros de anotação humana, especialmente em cenários multiculturais, sem aumentar o número de parâmetros do modelo.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Este artigo apresenta o DSA-SRGS, o primeiro framework de gaussian splatting com super-resolução para reconstrução dinâmica de angiografia por subtração digital (DSA) a partir de vistas esparsas, que integra aprendizado de textura multi-fidelidade e densificação radiativa sub-pixel para recuperar detalhes vasculares finos e superar as limitações de resolução das abordagens existentes.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

O artigo apresenta o MADCrowner, um framework de geração de malhas dentárias que combina deformação de templates baseada em contexto anatômico e segmentação precisa da margem cervical para superar as limitações de resolução e precisão dos métodos atuais de design de coroas dentárias.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Este relatório técnico apresenta a Privacy Camera 2.0, um novo framework de percepção que equilibra privacidade e segurança ao transformar imagens brutas em vetores de características abstratos e irreversíveis na borda, permitindo a reconstrução semântica de comportamentos na nuvem sem expor dados visuais originais.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

O artigo propõe o RMK RetinaNet, um detector de objetos orientados para imagens de sensoriamento remoto que supera limitações de campo receptivo, fusão de características e regressão angular através de um bloco de kernel multi-escala, atenção contextual direcional, um caminho bottom-up e um módulo de codificação de ângulo de Euler, alcançando desempenho robusto e competitivo em múltiplas escalas e orientações.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

O artigo apresenta o framework LAW & ORDER, que utiliza adaptadores espaciais para melhorar a geração de imagens médicas e a segmentação ao corrigir desequilíbrios espaciais, resultando em ganhos significativos de qualidade sintética e precisão de segmentação com custo computacional reduzido.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Esta revisão compara métodos tradicionais e de aprendizado profundo para segmentação e classificação de gliomas cerebrais em imagens de ressonância magnética, concluindo que as arquiteturas de redes neurais convolucionais superam as técnicas convencionais.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

O artigo apresenta o MASQuant, um novo framework de quantização pós-treinamento para Modelos de Linguagem Multimodais (MLLMs) que resolve problemas de desalinhamento e invariância computacional entre modalidades através de suavização específica por modalidade e compensação baseada em SVD, alcançando desempenho competitivo em modelos duais e tri-ais.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Este artigo propõe o método DCR (Diffusion Contrastive Reconstruction), que integra sinais contrastivos derivados das imagens reconstruídas em vez das originais no processo de difusão para superar as limitações do CLIP, equilibrando simultaneamente a capacidade discriminativa e a percepção de detalhes na representação visual.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

O artigo apresenta o Meta-D, uma arquitetura que utiliza metadados categóricos de exames de ressonância magnética para orientar a extração de características, melhorando significativamente a detecção de tumores cerebrais e a segmentação em cenários com modalidades ausentes ao estabilizar representações e reduzir parâmetros do modelo.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Este artigo demonstra que, ao corrigir lacunas de domínio por meio de um novo conjunto de dados de alta qualidade e aumentação de dados sensível ao sensor, um modelo leve treinado com polarização supera os modelos fundacionais baseados apenas em RGB na estimativa de normais de superfície, oferecendo ganhos significativos em eficiência de dados e parâmetros.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

← Anterior Próximo →