cs.CV artigos | Gist.Science

Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

O artigo apresenta o LMP, um detector de dupla ramificação que combina protótipos visuais extraídos do domínio de destino com orientações textuais para superar as limitações de localização em cenários de detecção de objetos com poucos exemplos em domínios não vistos, alcançando resultados de ponta em benchmarks cruzados.

Wanqi Wang, Jingcai Guo, Yuxiang Cai + 1 more2026-02-24💻 cs

HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

O artigo apresenta o HeRO, uma política baseada em difusão que utiliza campos semânticos hierárquicos para fundir características geométricas e semânticas, alcançando o estado da arte em tarefas de manipulação robótica que exigem consciência de pose.

Chongyang Xu, Shen Cheng, Haipeng Li + 3 more2026-02-24💻 cs

Bayesian Lottery Ticket Hypothesis

Este artigo demonstra que a Hipótese do Bilhete de Loteria se aplica a Redes Neurais Bayesianas, revelando que sub-redes esparsas podem atingir ou superar a precisão do modelo original quando a poda é baseada principalmente na magnitude dos pesos e secundariamente no desvio padrão, embora haja degradação em esparsidades muito elevadas.

Nicholas Kuhn, Arvid Weyrauch, Lars Heyen + 3 more2026-02-24🤖 cs.LG

Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation

O artigo apresenta o 4DSTAR, um modelo autorregressivo inovador que utiliza propagação dinâmica de estados espaço-temporais e um VQ-VAE 4D para gerar objetos 4D com alta consistência espaço-temporal, superando as limitações de métodos baseados em difusão ao aproveitar informações de todos os passos temporais anteriores.

Liying Yang, Jialun Liu, Jiakui Hu + 5 more2026-02-24💻 cs

IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation

O artigo apresenta o IDperturb, uma estratégia de amostragem baseada em perturbação angular de embeddings de identidade que aumenta a diversidade intra-classe em imagens faciais sintéticas geradas por modelos de difusão, melhorando o desempenho e a generalização de sistemas de reconhecimento facial treinados com esses dados.

Fadi Boutros, Eduarda Caldeira, Tahar Chettaoui + 1 more2026-02-24💻 cs

CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification

O artigo propõe o CLAP, um autoencoder convolucional leve que utiliza camadas convolucionais separáveis e um mecanismo de ativação sigmoidal para classificar doenças em plantas com alta precisão e baixo custo computacional em condições de campo.

Asish Bera, Subhajit Roy, Sudiptendu Banerjee2026-02-24💻 cs

Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

O artigo propõe o IFA-Net, uma rede que detecta e localiza imagens geradas por IA modelando o que é "real" através de um autoencoder mascarado congelado e um processo de dois estágios que amplifica as falhas de reconstrução em regiões suspeitas, superando significativamente os métodos existentes em precisão e generalização.

Jiangling Zhang, Shuxuan Gao, Bofan Liu + 4 more2026-02-24💻 cs

Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Este trabalho apresenta um framework de quantização pós-treinamento conjunta para Vision Transformers que, sem utilizar dados rotulados, otimiza todas as camadas simultaneamente e emprega uma estratégia de geração de dados livre de rótulos guiada por prompts aprendidos via Stable Diffusion Turbo, alcançando resultados state-of-the-art em configurações de baixo bit e superando métodos anteriores.

Shile Li, Markus Karmann, Onay Urfalioglu2026-02-24💻 cs

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

O artigo apresenta o TIACam, um framework inovador de marcação zero robusta a câmeras que combina um aumentador automático aprendível, alinhamento adversarial entre imagem e texto para consistência semântica e uma cabeça de marcação que vincula mensagens binárias em um espaço de características invariantes, superando assim as complexas degradações ópticas introduzidas pela recaptura por câmera.

Abdullah All Tanvir, Agnibh Dasgupta, Xin Zhong2026-02-24⚡ eess

Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions

Este artigo apresenta o modelo MM2D3D, que aprimora a segmentação semântica de nuvens de pontos LiDAR 3D ao gerar previsões 2D densas e precisas, utilizando imagens de câmera para guiar o filtro e supervisionar pseudo-rotulagem dinâmica, superando assim a esparsidade inerente dos dados LiDAR.

Xiaoyu Dong, Tiankui Xian, Wanshui Gan + 1 more2026-02-24💻 cs

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

O artigo apresenta o SLD-Font, um modelo de difusão que realiza o desentrelaçamento no nível estrutural para gerar fontes chinesas com poucos exemplos, garantindo alta fidelidade estilística e precisão de conteúdo através de canais separados, atenção cruzada baseada em CLIP, remoção de ruído de fundo e uma estratégia de ajuste fino eficiente em parâmetros.

Jie Li, Suorong Yang, Jian Zhao + 1 more2026-02-24🤖 cs.AI

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

O artigo apresenta o FOCA, um framework baseado em modelos de linguagem grandes multimodais que integra características dos domínios espacial e de frequência para detectar, localizar e explicar forjaturas de imagem com alta precisão e interpretabilidade, apoiado pelo novo conjunto de dados FSE-Set.

Zhou Liu, Tonghua Su, Hongshi Zhang + 4 more2026-02-24🤖 cs.AI

Characterization of Residual Morphological Substructure Using Supervised and Unsupervised Deep Learning

Este estudo avalia a aplicação de redes neurais convolucionais supervisionadas e autoencoders variacionais convolucionais não supervisionados na caracterização de subestruturas morfológicas residuais em imagens de galáxias do CANDELS, demonstrando que os recursos latentes do modelo supervisionado correlacionam-se eficazmente com métricas quantitativas de força residual, enquanto o modelo não supervisionado apresenta poder discriminatório limitado.

Kameswara Bharadwaj Mantha, Daniel H. McIntosh, Cody Ciaschi + 9 more2026-02-24🔭 astro-ph

PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

O artigo apresenta o PhysConvex, uma nova representação de campos de radiação dinâmica 3D baseada em primitivas convexas fisicamente fundamentadas que unifica a reconstrução visual realista e a simulação física de cenas deformáveis, superando os métodos existentes em fidelidade geométrica e consistência dinâmica.

Dan Wang, Xinrui Cui, Serge Belongie + 1 more2026-02-24💻 cs

Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

Este trabalho identifica a não estacionariedade das atualizações do codificador como a causa fundamental do colapso de código na quantização vetorial e propõe dois novos métodos, NSVQ e TransVQ, que alcançam uma utilização quase completa do códigobook e qualidade de reconstrução superior em modelos generativos.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24💻 cs

PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

O artigo apresenta o PrivacyBench, um framework de benchmarking que revela como a combinação arbitrária de técnicas de privacidade em sistemas de visão híbridos pode levar a falhas catastróficas de convergência e custos elevados, fornecendo diretrizes sistemáticas para avaliar trade-offs entre privacidade, utilidade e custo antes da implantação.

Nnaemeka Obiefuna, Samuel Oyeneye, Similoluwa Odunaiya + 2 more2026-02-24💻 cs

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Este artigo apresenta o SCHEMA, uma metodologia de engenharia de prompts estruturada e validada empiricamente para o modelo Google Gemini 3 Pro Image, que utiliza um sistema progressivo de três níveis e componentes modulares para garantir alta conformidade, coerência e controle preciso na geração de imagens em seis domínios profissionais.

Luca Cazzaniga2026-02-24💻 cs

PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

O artigo apresenta o PCA-VAE, um modelo generativo que substitui a quantização vetorial não diferenciável por um gargalo de PCA online treinado com a regra de Oja, resultando em uma representação latente estável, eficiente em bits e semanticamente interpretável que supera métodos como VQ-GAN e SimVQ.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24🤖 cs.LG

Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

Este artigo apresenta a Marginalized Bundle Adjustment (MBA), um método que integra estimativas de profundidade monoculares densas ao processo de Structure-from-Motion para mitigar erros de variância e alcançar desempenho competitivo em tarefas de reconstrução 3D e relocalização de câmeras.

Shengjie Zhu, Ahmed Abdelkader, Mark J. Matthews + 2 more2026-02-24💻 cs

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

O artigo apresenta o DeepInterestGR, um framework de recomendação generativa que supera as limitações de interesses superficiais ao utilizar múltiplos LLMs multimodais para extrair, rotular e codificar interesses profundos em identificadores semânticos, resultando em desempenho superior em benchmarks de recomendação.

Yangchen Zeng2026-02-24🤖 cs.LG

← Anterior Próximo →