Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudo demonstra que o alinhamento semântico via linguagem, através do método "Semantic Anchoring", supera a colapso de embeddings e melhora significativamente a detecção de câncer em modelos de visão computacional ao permitir a reinterpretação semântica de características visuais para generalização entre espécies e tipos de câncer, sem a necessidade de retreinamento completo.

Ekansh Arora2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Este artigo apresenta uma abordagem de aprendizado profundo multi-modal que integra redes neurais convolucionais 3D, dados de pose humana e detecção de objetos via mecanismo de atenção cruzada para melhorar o reconhecimento de atividades diárias em ambientes de Vida Assistida Ambientada, visando promover a segurança e autonomia de idosos.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

O artigo apresenta o InverseNet, o primeiro benchmark transversal a múltiplas modalidades de imageamento compressivo, demonstrando que a discrepância entre o operador físico e o modelo computacional degrada drasticamente o desempenho dos métodos de aprendizado profundo, enquanto arquiteturas condicionadas ao operador e calibração cega conseguem recuperar a maior parte dessa perda.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Este estudo analisa estratégias de fusão e agrupamento em redes neurais convolucionais para classificação de Zonas Climáticas Locais (LCZ) usando dados de sensoriamento remoto multimodais, demonstrando que uma abordagem híbrida combinada com agrupamento de bandas e fusão de rótulos alcança a maior precisão geral (76,6%) e melhora significativamente a detecção de classes sub-representadas no conjunto de dados So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Este artigo propõe o "Dual-LoRA Controllable Diffusion", um framework unificado de difusão guiado por centróides que utiliza adaptadores LoRA especializados para realizar simultaneamente a conclusão de estruturas locais e a síntese global em imagens de histopatologia, superando os métodos existentes ao garantir maior fidelidade estrutural e realismo morfológico com baixo custo de anotação.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

O artigo apresenta o PinPoint, um novo benchmark abrangente para Recuperação de Imagens Compostas (CIR) que inclui múltiplas respostas corretas, negativos explícitos e testes de robustez, revelando limitações significativas nos métodos atuais e propondo uma solução de reranking baseada em MLLM para superá-las.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

O Spinverse é um método de reconstrução de microestrutura a partir de ressonância magnética de difusão que utiliza um simulador de Bloch-Torrey totalmente diferenciável para inferir permeabilidades em faces de uma malha tetraédrica, permitindo a emergência de interfaces microestruturais sem alterar a conectividade da malha.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Este estudo apresenta uma avaliação sistemática de métodos de compressão de redes neurais — especificamente poda, quantização e destilação de conhecimento — para classificação de imagens hiperespectrais, demonstrando que é possível reduzir significativamente o tamanho e o custo computacional dos modelos mantendo um desempenho competitivo em plataformas de recursos limitados.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Este estudo avalia a viabilidade de modelos de linguagem multimodal para detecção de anomalias em vídeo em cenários reais, revelando que, embora instruções específicas possam melhorar significativamente o desempenho, os modelos apresentam um viés conservador que limita severamente a recall, tornando-os ainda inadequados para aplicações de vigilância sem ajustes adicionais.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

O artigo apresenta o Real-IISR, um novo framework autoregressivo unificado e o conjunto de dados FLIR-IISR para super-resolução de imagens infravermelhas em cenários reais, projetados para superar as limitações de simulações anteriores ao reconstruir estruturas térmicas e de fundo com consistência física através de módulos de orientação térmico-estrutural e correção de viés de degradação.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Este comentário de panorama avalia a família GPT-5 como raciocinador clínico multimodal, demonstrando avanços significativos na síntese de dados textuais e de imagem que superam o GPT-4o, mas revelando que, embora represente um progresso em direção ao raciocínio integrado, os modelos generalistas ainda não substituem sistemas especializados em tarefas críticas de percepção como neurorradiologia e mamografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs