cs.CV artigos | Gist.Science

Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

Este trabalho identifica a não estacionariedade das atualizações do codificador como a causa fundamental do colapso de código na quantização vetorial e propõe dois novos métodos, NSVQ e TransVQ, que alcançam uma utilização quase completa do códigobook e qualidade de reconstrução superior em modelos generativos.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24💻 cs

PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

O artigo apresenta o PrivacyBench, um framework de benchmarking que revela como a combinação arbitrária de técnicas de privacidade em sistemas de visão híbridos pode levar a falhas catastróficas de convergência e custos elevados, fornecendo diretrizes sistemáticas para avaliar trade-offs entre privacidade, utilidade e custo antes da implantação.

Nnaemeka Obiefuna, Samuel Oyeneye, Similoluwa Odunaiya + 2 more2026-02-24💻 cs

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Este artigo apresenta o SCHEMA, uma metodologia de engenharia de prompts estruturada e validada empiricamente para o modelo Google Gemini 3 Pro Image, que utiliza um sistema progressivo de três níveis e componentes modulares para garantir alta conformidade, coerência e controle preciso na geração de imagens em seis domínios profissionais.

Luca Cazzaniga2026-02-24💻 cs

PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

O artigo apresenta o PCA-VAE, um modelo generativo que substitui a quantização vetorial não diferenciável por um gargalo de PCA online treinado com a regra de Oja, resultando em uma representação latente estável, eficiente em bits e semanticamente interpretável que supera métodos como VQ-GAN e SimVQ.

Hao Lu, Onur C. Koyun, Yongxin Guo + 3 more2026-02-24🤖 cs.LG

Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

Este artigo apresenta a Marginalized Bundle Adjustment (MBA), um método que integra estimativas de profundidade monoculares densas ao processo de Structure-from-Motion para mitigar erros de variância e alcançar desempenho competitivo em tarefas de reconstrução 3D e relocalização de câmeras.

Shengjie Zhu, Ahmed Abdelkader, Mark J. Matthews + 2 more2026-02-24💻 cs

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

O artigo apresenta o DeepInterestGR, um framework de recomendação generativa que supera as limitações de interesses superficiais ao utilizar múltiplos LLMs multimodais para extrair, rotular e codificar interesses profundos em identificadores semânticos, resultando em desempenho superior em benchmarks de recomendação.

Yangchen Zeng2026-02-24🤖 cs.LG

Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

O artigo apresenta o DACo, um framework de agentes duplos que desacopla o planejamento global da execução local para superar as limitações de navegação em ambientes complexos, alcançando desempenho superior e generalização em tarefas de navegação visão-linguagem de longo alcance.

Kaiming Jin, Yuefan Wu, Shengqiong Wu + 3 more2026-02-24💻 cs

Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Este artigo apresenta um framework aprimorado com profundidade, combinando YOLOv8 e SAM2 com correção geométrica de dados RGB-D, que aumenta significativamente a precisão e o recall na detecção de insuficiência de lastro ferroviário, superando as limitações dos modelos baseados apenas em imagens RGB.

Shiyu Liu, Dylan Lester, Husnu Narman + 2 more2026-02-24⚡ eess

Face Presentation Attack Detection via Content-Adaptive Spatial Operators

Este artigo apresenta o CASO-PAD, um modelo leve e baseado apenas em RGB para detecção de ataques de apresentação facial que utiliza operadores espaciais adaptativos ao conteúdo (involution) para capturar eficazmente pistas de falsificação localizadas, alcançando desempenho robusto em múltiplos benchmarks sem a necessidade de sensores auxiliares ou pilhas temporais.

Shujaat Khan2026-02-24⚡ eess

Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

O artigo apresenta o Frame2Freq, uma família de adaptadores que utilizam codificação espectral via Transformada Rápida de Fourier para capturar dinâmicas temporais em múltiplas escalas, superando métodos anteriores na reconhecimento de ações visuais finas ao adaptar modelos de visão pré-treinados para vídeo.

Thinesh Thiyakesan Ponbagavathi, Constantin Seibold, Alina Roitberg2026-02-24💻 cs

A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Este trabalho apresenta o Life-Bench, um benchmark abrangente baseado em pegadas digitais simuladas, e o LifeGraph, um framework baseado em grafos de conhecimento, para avaliar e melhorar a personalização multimodal avançada em modelos de linguagem visuais, destacando as limitações atuais e a necessidade de raciocínio relacional e temporal mais sofisticado.

Xia Hu, Honglei Zhuang, Brian Potetz + 4 more2026-02-24💻 cs

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

O artigo apresenta o MoBind, um framework hierárquico de aprendizado contrastivo que alinha sinais de IMU com sequências de pose 2D para permitir recuperação cruzada precisa, sincronização temporal, localização de sujeitos e partes do corpo, e reconhecimento de ações, superando métodos existentes em diversos conjuntos de dados.

Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai2026-02-24💻 cs

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

O artigo apresenta o GUIDE-US, um método de destilação de conhecimento não pareada que treina um codificador de micro-ultrassom para imitar a distribuição de embeddings de um modelo fundacional de histopatologia, permitindo a classificação não invasiva do câncer de próstata com maior sensibilidade e sem a necessidade de emparelhamento de imagens ou dados histológicos durante a inferência.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

O artigo apresenta o TokenTrace, um novo framework de marcação d'água proativa que permite a atribuição robusta e independente de múltiplos conceitos (como objetos e estilos artísticos) em imagens geradas por IA, superando métodos existentes ao dissecar e verificar cada conceito individualmente sem comprometer a qualidade visual.

Li Zhang, Shruti Agarwal, John Collomosse + 2 more2026-02-24💻 cs

An interpretable framework using foundation models for fish sex identification

O artigo apresenta o FishProtoNet, um framework não invasivo e interpretável baseado em modelos de fundação e redes de protótipos para a identificação do sexo do peixe delta smelt em risco de extinção, demonstrando alta precisão nas fases de desova e pós-desova, embora ainda enfrente desafios na fase subadulta devido às menores diferenças morfológicas.

Zheng Miao, Tien-Chieh Hung2026-02-24🤖 cs.AI

Towards Calibrating Prompt Tuning of Vision-Language Models

Este artigo propõe um novo framework de calibração para o ajuste de prompts em modelos de visão e linguagem, como o CLIP, que utiliza regularizadores de margem e correspondência de momentos para melhorar a confiabilidade das previsões e reduzir o erro de calibração sem comprometer a generalização do modelo.

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir + 6 more2026-02-24💻 cs

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artigo propõe que o colapso de modelos em loops de feedback iterativo resulta de um fenômeno chamado ressonância neural, onde a ergodicidade e a contração direcional no espaço latente levam a uma estrutura invariante de baixa dimensão, oferecendo uma explicação unificada e uma taxonomia para diagnosticar e mitigar essa degeneração.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

O artigo apresenta o OpenVO, um novo framework de odometria visual para mundos abertos que supera as limitações de métodos existentes ao estimar o movimento egoísta em escala real a partir de vídeos monoculares não calibrados com taxas de observação variáveis, utilizando dinâmicas temporais e priores geométricos 3D para alcançar melhorias significativas de desempenho em benchmarks de condução autônoma.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Este trabalho redefine o paradigma dos modelos multimodais 3D grandes (3D LMMs) ao introduzir o pipeline automático PoseRecover para recuperar poses egocêntricas e a técnica PoseAlign para alinhar dados de nuvem de pontos, resultando em melhorias significativas e eficientes na capacidade de raciocínio espacial e resposta a perguntas direcionais em diversos benchmarks e arquiteturas existentes.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs

L3DR: 3D-aware LiDAR Diffusion and Rectification

O artigo apresenta o L3DR, um framework de difusão e retificação de LiDAR consciente de 3D que corrige artefatos de visão de alcance e restaura a geometria local com precisão, superando os modelos 2D tradicionais e alcançando resultados de ponta em diversos conjuntos de dados.

Quan Liu, Xiaoqin Zhang, Ling Shao + 1 more2026-02-24💻 cs

← Anterior Próximo →