cs.CV artigos | Gist.Science

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

O artigo apresenta o Speedy-Splat, uma abordagem que otimiza o pipeline de renderização e introduz uma técnica de poda para reduzir o tamanho do modelo e o tempo de treinamento, acelerando a renderização média em 6,71 vezes sem comprometer a fidelidade visual.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

O artigo apresenta o MEt3R, uma nova métrica independente do processo de amostragem que avalia a consistência multi-visão em imagens geradas ao utilizar reconstruções 3D densas via DUSt3R para comparar mapas de características entre vistas, permitindo a avaliação objetiva de diversos métodos de geração de novas visões e vídeos.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

O artigo apresenta uma solução polinomial rápida e precisa para o problema de quatro pontos na perspectiva, baseada numa nova separação de variáveis que reduz o problema a um de orientação absoluta, superando os algoritmos atuais em velocidade e mantendo a precisão sob ruído realista.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Este trabalho propõe um quadro inovador de aprendizado auto-supervisionado que utiliza atributos espaciais e temporais de imagens de rua para aprender representações urbanas robustas, superando métodos tradicionais em tarefas como reconhecimento de lugar, estimativa socioeconômica e percepção humano-ambiente.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

O estudo apresenta o SAMRI-2, um modelo de visão computacional baseado em memória que supera os métodos existentes na segmentação de cartilagem e menisco em ressonâncias magnéticas 3D do joelho, oferecendo maior precisão morfológica e reduzindo significativamente o esforço de anotação humana.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Este artigo apresenta o Interpretable Visual Prompt Tuning (IVPT), um novo framework que introduz protótipos de conceitos entre camadas para vincular prompts visuais a conceitos semânticos compreensíveis por humanos, permitindo a geração de prompts interpretáveis em múltiplas profundidades da rede e demonstrando superioridade em desempenho e interpretabilidade em benchmarks de classificação de granularidade fina.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Este artigo apresenta o Hier-COS, um novo framework que utiliza a composição de subespaços ortogonais para criar representações de características hierarquicamente conscientes e consistentes, superando as limitações das métricas de avaliação existentes através da proposta do HOPS e alcançando desempenho superior em tarefas de classificação hierárquica.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

O artigo propõe o SpHOR, uma abordagem de aprendizado de representação supervisionada que, ao empregar embeddings de rótulos ortogonais, restrições esféricas e técnicas de regularização como Mixup e Label Smoothing, melhora significativamente a separabilidade angular e de norma para alcançar resultados de ponta na Reconhecimento de Conjunto Aberto (OSR).

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

O artigo apresenta o PSGait, um framework inovador que combina silhuetas com uma nova representação chamada "Parsing Skeleton" para melhorar a precisão e a generalização do reconhecimento de marcha em cenários reais, superando os métodos atuais com menor custo computacional.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

O artigo apresenta o VideoMind, um agente de vídeo-linguagem inovador que utiliza um fluxo de trabalho baseado em papéis coordenado por um mecanismo Chain-of-LoRA para realizar raciocínio temporal fundamentado com alta eficiência e flexibilidade em diversas tarefas de compreensão de vídeo.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

O artigo apresenta o ShapeShift, um método que utiliza um campo de fase deformável guiado por características de modelos de difusão para organizar objetos rígidos em configurações semanticamente coerentes e livres de sobreposições, resolvendo o conflito entre validade física e clareza conceitual.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabalho apresenta o novo conjunto de dados e benchmark Qualcomm Interactive Video Dataset (IVD) para avaliar a capacidade de modelos de visão e linguagem de responder a perguntas em tempo real sobre cenas do mundo vivo, demonstrando que, embora os modelos atuais fiquem muito aquém do desempenho humano, o ajuste fino com esses dados pode reduzir significativamente essa lacuna em diversas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este artigo propõe um novo método de geração de pesos analógicos inspirado no cérebro humano, denominado BiAG, que utiliza atenção de auto-peso, analogia entre pesos e protótipos, e conversão semântica baseada na teoria do Colapso Neural para gerar pesos de novas classes em cenários de Aprendizado Incremental de Classe com Poucos Exemplos (FSCIL) sem ajuste fino de parâmetros, alcançando desempenho superior ao estado da arte em diversos conjuntos de dados.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

O artigo apresenta o JavisDiT, um novo modelo Transformer de difusão que gera áudio e vídeo sincronizados a partir de prompts de texto, utilizando um mecanismo de prioridade hierárquica para alinhamento e um novo benchmark para avaliação de sincronia.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

O artigo apresenta o STEP, um método de sonda leve e eficiente que supera técnicas de ajuste fino tradicionais ao modelar a ordem temporal das imagens para reconhecer ações quase simétricas em interações humano-robô, estabelecendo um novo estado da arte com menor custo computacional.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

O artigo propõe o método DL4ND, a primeira abordagem direta para a Generalização Consciente de Ruído (NAG), que supera as limitações de métodos existentes ao utilizar rótulos de domínio para detectar ruído com base na variação amostral entre domínios, alcançando ganhos de desempenho significativos em diversos cenários.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

O artigo apresenta o nnLandmark, um framework autoconfigurável para detecção de marcos anatômicos em 3D que combina componentes do nnU-Net para alcançar desempenho de ponta, facilitar o treinamento sem necessidade de ajuste manual de hiperparâmetros e estabelecer um padrão unificado para avaliação e comparação de métodos na área médica.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Este artigo propõe um mecanismo de atenção guiada por confiança que aprimora o casamento de características semi-densas ao adaptar dinamicamente os pesos de atenção e as características de valor com base em mapas de confiança, eliminando assim ruídos de regiões irrelevantes e superando os métodos mais avançados existentes.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

O artigo apresenta o GRILL, uma técnica que restaura os sinais de gradiente em camadas mal condicionadas de autoencodificadores, permitindo ataques adversariais mais eficazes e uma avaliação mais rigorosa da robustez desses modelos e de arquiteturas multimodais similares.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artigo propõe um método de transferência de representação de recursos para modelos leves baseado no conceito de "coerência de percepção", que utiliza um novo função de perda probabilística para alinhar as classificações de dissimilaridade dos dados entre o professor e o aluno, permitindo que o modelo menor aprenda a percepção global do professor sem precisar preservar sua geometria absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

← Anterior Próximo →