cs.CV artigos | Gist.Science

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

O artigo apresenta o MuCTaL, um modelo de aprendizado profundo leve e generalizável treinado em quatro tipos de câncer para localizar tumores em imagens de patologia digital, demonstrando alta precisão nos dados de treinamento e capacidade de adaptação a tipos não vistos, como o adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

O artigo apresenta o HECTOR, um pipeline de geração de vídeo que permite controle composicional fino e híbrido, possibilitando a síntese de cenas dinâmicas com alta fidelidade e manipulação explícita de trajetórias, escalas e velocidades de objetos distintos a partir de referências estáticas e dinâmicas.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Este artigo apresenta uma avaliação adversarial sistemática que revela vulnerabilidades críticas e falhas sustentadas em três arquiteturas de modelos visão-linguagem para direção autônoma (Dolphins, OmniDrive e LeapVAD) quando submetidas a ataques de patch fisicamente realizáveis no simulador CARLA.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Este artigo apresenta a segmentação de consultas visuais (VQS) como um novo paradigma para localização precisa de objetos em vídeos, introduzindo o benchmark de grande escala VQS-4K e o método VQ-SAM, que supera as abordagens existentes ao combinar o SAM 2 com um mecanismo de memória adaptativa para gerar máscaras pixel a pixel de todas as ocorrências de um objeto.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Este artigo propõe uma família leve de adaptadores de decodificador, o Multi-Kernel Gated Adapter (MKGA), que utiliza campos receptivos complementares e mecanismos de portão semântico para mitigar a transferência negativa e melhorar a robustez na segmentação e diagnóstico de nódulos tireoidianos em ultrassonografia sob mudanças de domínio entre centros.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

O artigo apresenta o MedCBR, um framework de raciocínio baseado em conceitos que integra diretrizes clínicas e modelos de linguagem-vídeo para melhorar a interpretabilidade e a precisão no diagnóstico médico, gerando narrativas clínicas estruturadas que emulam o raciocínio de especialistas.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

O artigo apresenta o Desafio Grandioso de Microexpressões de 2026 (MEGC2026), que introduz duas novas tarefas de Resposta a Perguntas Visuais (VQA) para vídeos de microexpressões — uma para sequências curtas e outra para vídeos longos — visando explorar as capacidades de raciocínio multimodal de modelos de linguagem e visão avançados na análise de emoções sutis.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

O artigo apresenta o TIDE, um método livre de treinamento para a extrapolação de resolução em Transformers de Difusão (DiT) que, ao corrigir o desequilíbrio entre tokens de texto e imagem e controlar dinamicamente a temperatura, permite a geração de imagens em resoluções e proporções arbitrárias sem degradar detalhes semânticos ou introduzir artefatos.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este artigo apresenta um novo benchmark sintético e uma abordagem inovadora que utiliza modelos de visão e linguagem (VLMs) com aprendizado em contexto para gerar automaticamente configurações JSON de simulação de plantas a partir de imagens de drones, visando superar os desafios de complexidade e escalabilidade na criação de gêmeos digitais agrícolas.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

O artigo apresenta o PathoScribe, um framework unificado baseado em modelos de linguagem (LLM) que transforma arquivos de patologia estáticos em uma biblioteca viva e inteligente, permitindo recuperação semântica, construção automatizada de coortes e raciocínio clínico com alta precisão, conforme demonstrado em uma avaliação com 70.000 relatórios cirúrgicos.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

O artigo apresenta o BiCLIP, um framework simples e eficiente que adapta modelos de linguagem e visão a domínios especializados aplicando uma transformação geométrica canônica baseada em poucos exemplos, alcançando resultados state-of-the-art em diversos benchmarks.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Este artigo apresenta o primeiro benchmark de aprendizado contínuo sem exemplares para Segmentação Áudio-Visual, introduzindo o modelo ATLAS com ancoragem de baixo rank para mitigar o esquecimento catastrófico e permitir que sistemas aprendam continuamente a localizar e segmentar objetos sonoros em ambientes dinâmicos.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

O artigo apresenta o SVG-EAR, um método sem parâmetros que utiliza compensação linear baseada em centróides e roteamento consciente de erros para recuperar as contribuições de blocos de atenção negligenciados na geração de vídeos esparsa, alcançando acelerações de até 1,93× sem comprometer a qualidade.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

O artigo apresenta o SurgCalib, um framework automático e sem marcadores baseado em Gaussian Splatting para calibração mão-olho no robô cirúrgico da Vinci, que supera as limitações de medições proprioceptivas e de esterilidade ao refinar a pose do instrumento cirúrgico através de um pipeline de renderização diferenciável com restrição de ponto de rotação (RCM).

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

O artigo apresenta o SkipGS, um método plug-and-play que acelera o treinamento do 3DGS ao introduzir um mecanismo de gatilho adaptativo que omite seletivamente as passagens de retropropagação redundantes na fase de refinamento pós-densificação, reduzindo o tempo total de treinamento em 23,1% sem comprometer a qualidade da reconstrução.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Este trabalho propõe um novo quadro de autenticação multimodal baseado em difusão que utiliza assinaturas de impressora e o modelo ControlNet para distinguir com maior eficácia padrões de detecção de cópia genuínos de falsificações de alta qualidade, superando métodos tradicionais e abordagens anteriores de aprendizado profundo.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

O artigo propõe o Normalized Flow Matching (NFM), um novo método que utiliza o acoplamento quase determinístico de modelos de fluxo normalizante pré-treinados para treinar modelos de fluxo de destino, resultando em desempenho superior tanto em relação aos modelos de fluxo tradicionais quanto ao próprio modelo professor.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Este trabalho propõe uma medida de planicidade exata e fiel à arquitetura para Redes Neurais Convolucionais (CNNs), derivando uma expressão fechada para o traço do Hessiano que considera as simetrias de escalonamento e interações de filtros, demonstrando empiricamente sua eficácia como ferramenta robusta para estimar o desempenho de generalização e orientar o design de modelos.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

O artigo apresenta o WS-Net, uma nova estrutura de aprendizado profundo para desmistificação hiperespectral que combina modelagem de espaço de estados (Mamba) e atenção a sinais fracos para superar a colapso de respostas espectrais fracas, alcançando reduções significativas nos erros de estimativa de abundância em comparação com métodos existentes.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

O artigo apresenta o SpectralDiff, um framework baseado em difusão estrutural espectral que utiliza perturbações espectrais direcionadas e uma arquitetura U-Net de produto total para remover eficazmente manchas de chuva de imagens únicas, oferecendo desempenho competitivo com maior eficiência computacional.

Yucheng Xing, Xin Wang2026-03-11💻 cs

← Anterior Próximo →