cs.CV artigos | Gist.Science

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

O artigo apresenta o "Gaussian Wardrobe", uma nova estrutura que digitaliza avatares 3D composicionais a partir de vídeos multiview, separando o corpo de camadas de roupas neurais independentes da forma para permitir a síntese realista em novas poses e a transferência versátil de vestuário entre diferentes indivíduos.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudo demonstra que o alinhamento semântico via linguagem, através do método "Semantic Anchoring", supera a colapso de embeddings e melhora significativamente a detecção de câncer em modelos de visão computacional ao permitir a reinterpretação semântica de características visuais para generalização entre espécies e tipos de câncer, sem a necessidade de retreinamento completo.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artigo propõe o "Dual Tuning", um quadro de trabalho que quantifica os ganhos do raciocínio em tarefas multimodais para estabelecer uma "Fronteira de Pensamento", desafiando a abordagem de "raciocínio para tudo" e orientando estratégias de treinamento mais eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

O artigo apresenta o SkillNet, uma infraestrutura aberta que organiza e avalia habilidades de IA em escala, permitindo que agentes aprendam com experiências passadas e melhorem significativamente seu desempenho em tarefas complexas.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Este artigo apresenta uma abordagem de aprendizado profundo multi-modal que integra redes neurais convolucionais 3D, dados de pose humana e detecção de objetos via mecanismo de atenção cruzada para melhorar o reconhecimento de atividades diárias em ambientes de Vida Assistida Ambientada, visando promover a segurança e autonomia de idosos.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

O artigo apresenta o InverseNet, o primeiro benchmark transversal a múltiplas modalidades de imageamento compressivo, demonstrando que a discrepância entre o operador físico e o modelo computacional degrada drasticamente o desempenho dos métodos de aprendizado profundo, enquanto arquiteturas condicionadas ao operador e calibração cega conseguem recuperar a maior parte dessa perda.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Este estudo analisa estratégias de fusão e agrupamento em redes neurais convolucionais para classificação de Zonas Climáticas Locais (LCZ) usando dados de sensoriamento remoto multimodais, demonstrando que uma abordagem híbrida combinada com agrupamento de bandas e fusão de rótulos alcança a maior precisão geral (76,6%) e melhora significativamente a detecção de classes sub-representadas no conjunto de dados So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Este artigo propõe o "Dual-LoRA Controllable Diffusion", um framework unificado de difusão guiado por centróides que utiliza adaptadores LoRA especializados para realizar simultaneamente a conclusão de estruturas locais e a síntese global em imagens de histopatologia, superando os métodos existentes ao garantir maior fidelidade estrutural e realismo morfológico com baixo custo de anotação.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Este artigo apresenta o Partial Vision Mamba (PVM), um novo componente arquitetural que adapta os princípios de convoluções parciais para o modelo State-Space Mamba, permitindo que redes neurais processem eficientemente dados de visão computacional com regiões inválidas ou faltantes em tarefas como completamento de profundidade, inpainting de imagens e classificação.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

O artigo apresenta o PinPoint, um novo benchmark abrangente para Recuperação de Imagens Compostas (CIR) que inclui múltiplas respostas corretas, negativos explícitos e testes de robustez, revelando limitações significativas nos métodos atuais e propondo uma solução de reranking baseada em MLLM para superá-las.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Este trabalho apresenta o modelo SGR3, uma estrutura sem treinamento que utiliza modelos de linguagem grandes multimodais com recuperação aumentada para gerar grafos de cena 3D sem reconstrução explícita, alcançando desempenho competitivo ao integrar informações recuperadas diretamente no processo de geração de tokens.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

O Spinverse é um método de reconstrução de microestrutura a partir de ressonância magnética de difusão que utiliza um simulador de Bloch-Torrey totalmente diferenciável para inferir permeabilidades em faces de uma malha tetraédrica, permitindo a emergência de interfaces microestruturais sem alterar a conectividade da malha.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Este estudo demonstra que uma abordagem multimodal, combinando recursos visuais e textuais com o modelo GPT-4.1-nano, supera métodos unimodais na previsão da dificuldade de itens de testes de alfabetização em visualização de dados para adultos dos EUA, evidenciando o potencial dos modelos de linguagem para análise psicométrica e desenvolvimento automatizado de itens.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Este trabalho propõe o método sFRC (Fourier Ring Correlation em pequenas regiões), que analisa a correlação entre imagens restauradas por aprendizado profundo e suas referências em pequenos patches para detectar e quantificar alucinações em tarefas de restauração de imagens médicas, como super-resolução e reconstrução de CT e MRI.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

O artigo propõe o PulseFocus, um método de inferência sem treinamento que mitiga os padrões de atenção difusa e o viés posicional em modelos de linguagem e visão (VLMs) de raciocínio, melhorando significativamente o desempenho em tarefas de compreensão de múltiplas imagens ao estruturar o raciocínio em blocos de planejamento e foco com gateamento de atenção suave.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudo apresenta uma avaliação sistemática de métodos de compressão de redes neurais — especificamente poda, quantização e destilação de conhecimento — para classificação de imagens hiperespectrais, demonstrando que é possível reduzir significativamente o tamanho e o custo computacional dos modelos mantendo um desempenho competitivo em plataformas de recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este estudo avalia a viabilidade de modelos de linguagem multimodal para detecção de anomalias em vídeo em cenários reais, revelando que, embora instruções específicas possam melhorar significativamente o desempenho, os modelos apresentam um viés conservador que limita severamente a recall, tornando-os ainda inadequados para aplicações de vigilância sem ajustes adicionais.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

O artigo propõe o FOZO, um método inovador de otimização de prompts sem retropropagação para adaptação em tempo de teste que, ao utilizar estimativas de gradiente de ordem zero e estatísticas de recursos intermediários, supera métodos baseados em gradiente e técnicas existentes em cenários com recursos limitados e modelos quantizados.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

O artigo apresenta o Real-IISR, um novo framework autoregressivo unificado e o conjunto de dados FLIR-IISR para super-resolução de imagens infravermelhas em cenários reais, projetados para superar as limitações de simulações anteriores ao reconstruir estruturas térmicas e de fundo com consistência física através de módulos de orientação térmico-estrutural e correção de viés de degradação.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentário de panorama avalia a família GPT-5 como raciocinador clínico multimodal, demonstrando avanços significativos na síntese de dados textuais e de imagem que superam o GPT-4o, mas revelando que, embora represente um progresso em direção ao raciocínio integrado, os modelos generalistas ainda não substituem sistemas especializados em tarefas críticas de percepção como neurorradiologia e mamografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

← Anterior Próximo →