cs.CV artigos | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

O artigo apresenta o ScribeTokens, um método de tokenização de tinta digital baseado em um vocabulário fixo de 10 tokens que, combinado com uma estratégia de pré-treinamento por previsão de próximo token, supera as representações vetoriais tradicionais tanto na geração quanto no reconhecimento de texto manuscrito.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Este artigo apresenta as Redes Residuais de Derivada Gaussiana (GaussDerResNets), uma arquitetura que combina blocos de derivada gaussiana covariantes com conexões de salto residuais para criar redes profundas com alta precisão e propriedades de generalização de escala comprovadas, demonstradas experimentalmente em conjuntos de dados como STL-10, Fashion-MNIST e CIFAR-10.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Este estudo revela que, embora as informações sobre nós e estruturas globais sejam linearmente codificadas precocemente no codificador visual de modelos de linguagem e visão grandes (LVLMs), as informações sobre arestas só emergem tardiamente nos tokens de texto, o que explica as dificuldades desses modelos na compreensão de relações direcionais em diagramas.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Este artigo apresenta um método de síntese de novas vistas com poucas imagens que utiliza uma amostragem de importância guiada por prios multimodais para aprimorar o Gaussian Splatting hierárquico, permitindo uma reconstrução robusta e de alta qualidade ao direcionar a adição de primitivas finas para regiões com evidências geométricas e semânticas consistentes, superando assim os problemas de superajuste e ruído típicos de cenários com dados esparsos.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

O SIGMark é um framework de marcação d'água escalável e sem distorção para modelos de difusão de vídeo que permite extração cega e robusta contra perturbações temporais, superando as limitações de custo computacional e fragilidade das abordagens anteriores.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

O artigo apresenta o SemanticDialect, uma abordagem de quantização mista semântica e adaptativa que otimiza a eficiência computacional e a qualidade na geração de vídeo por Transformers de Difusão (DiT) através da seleção dinâmica de formatos por bloco, decomposição de ativações e atribuição de dialetos baseada em semântica, superando métodos anteriores e aproximando-se da qualidade FP16.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

O artigo apresenta o StegaFFD, um framework de detecção de falsificação facial que preserva a privacidade ao ocultar imagens em imagens de cobertura por meio de esteganografia, utilizando mecanismos de decomposição e atenção para mitigar interferências semânticas e manter a precisão da detecção sem levantar suspeitas.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

O artigo apresenta o LLandMark, um framework modular multi-agente que integra agentes especializados, incluindo um agente de conhecimento de marcos e um pipeline assistido por LLM, para realizar recuperação de vídeo multimodal adaptativa e explicável com foco em cenas e textos vietnamitas.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

O artigo apresenta o MVD-HuGaS, um método inovador para reconstrução 3D de humanos a partir de uma única imagem que utiliza um modelo de difusão multi-visual aprimorado, um módulo de alinhamento para otimização conjunta de poses e Gaussians, e uma mitigação de distorção facial baseada em profundidade para alcançar renderizações de alta fidelidade com consistência geométrica e de aparência.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Este artigo apresenta o 3D-DRES, uma nova tarefa de segmentação de expressões de referência 3D detalhada, apoiada pelo conjunto de dados DetailRefer e pela arquitetura baseline DetailBase, que mapeiam frases específicas para elementos 3D para aprimorar a compreensão visão-linguagem e melhorar o desempenho em benchmarks tradicionais.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

O ProGIC é um codec de compressão de imagem generativa progressivo e leve baseado em quantização vetorial residual que supera métodos anteriores em eficiência de bitrate e velocidade, permitindo transmissão flexível e implantação prática em dispositivos com recursos limitados.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Este artigo apresenta a Rede de Assinatura Beltrami Harmônica (HBSN), uma nova arquitetura de aprendizado profundo que calcula representações de forma invariantes para normalizar e melhorar o desempenho de modelos de segmentação de imagens através da incorporação de informações geométricas como prioridade de forma.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

O artigo apresenta o framework "Articulation in Motion" (AiM), uma abordagem sem priores que utiliza representações de cena baseadas em Gaussianas e análise de movimento para decompor, segmentar e analisar a cinemática de objetos articulados a partir de um vídeo de interação e uma varredura inicial, eliminando a necessidade de conhecimento prévio sobre o número de partes.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

O artigo apresenta o HDINO, um detector de objetos de vocabulário aberto conciso e eficiente que elimina a dependência de conjuntos de dados finamente curados e extração de recursos intensiva, utilizando uma estratégia de treinamento em duas etapas com alinhamento semântico um-para-muitos e perda de classificação ponderada por dificuldade para alcançar desempenho superior ao de métodos existentes no conjunto de dados COCO.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

O artigo apresenta o GloPath, um modelo de base centrado em entidades treinado em mais de um milhão de glomérulos, que supera os métodos existentes na avaliação de lesões renais e descobre associações estatisticamente significativas entre parâmetros morfológicos e indicadores clínicos, estabelecendo uma plataforma escalável e interpretável para a patologia renal.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

O artigo apresenta o TC-Padé, um novo método de aproximação racional que supera as limitações das técnicas de cache de características existentes ao garantir consistência na trajetória e acelerar significativamente a geração de imagens e vídeos em modelos de difusão com poucos passos, mantendo alta qualidade.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Este artigo apresenta um framework leve que integra pela primeira vez a Perda de Proporção (Proportion Loss) do aprendizado com proporções de rótulos ao aprendizado semi-supervisionado para mitigar o viés de classes majoritárias e melhorar o desempenho em cenários de desequilíbrio de classes, demonstrando resultados superiores em benchmarks de longa cauda.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Este artigo propõe um método semi-supervisionado eficiente que utiliza dados não rotulados para propagar pseudo-rótulos baseados em texto, permitindo a adaptação de modelos visão-linguagem a tarefas médicas com poucos exemplos e reduzindo o esforço de anotação em mais de 50%.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Este artigo propõe um pipeline de síntese de anomalias baseado em modelos fundamentais (FMAS) combinado com um módulo de atenção no domínio das wavelets (WDAM) para melhorar a detecção de anomalias industriais, superando a escassez de dados e a complexidade dos defeitos reais sem necessidade de ajuste fino.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

O artigo apresenta o TagaVLM, um framework end-to-end que integra explicitamente estruturas topológicas em modelos VLMs por meio de mecanismos de atenção e prompts, alcançando desempenho state-of-the-art no benchmark R2R ao demonstrar que aprimoramentos direcionados em modelos menores são mais eficazes para raciocínio espacial corporificado do que o simples escalonamento de modelos.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← Anterior Próximo →