cs.CV artigos | Gist.Science

Multi-Vector Index Compression in Any Modality

Este artigo apresenta o método de agrupamento guiado por atenção (AGC) como uma técnica eficiente para compressão de índices de vetores múltiplos em qualquer modalidade, superando outros métodos de compressão e mantendo o desempenho competitivo em tarefas de recuperação de texto, documentos visuais e vídeo.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Label-free segmentation from cardiac ultrasound using self-supervised learning

Os autores desenvolveram um pipeline de aprendizado auto-supervisionado que realiza segmentação de câmaras cardíacas em ultrassons sem necessidade de anotações manuais, alcançando precisão clínica comparável aos métodos supervisionados e ao padrão-ouro de ressonância magnética.

Danielle L. Ferreira, Connor Lau, Zaynaf Salaymang + 1 more2026-02-24⚡ eess

Face Pyramid Vision Transformer

O artigo propõe o Face Pyramid Vision Transformer (FPVT), uma nova arquitetura que combina mecanismos de atenção espacial e redes feed-forward convolucionais para criar representações faciais discriminativas em múltiplas escalas, alcançando desempenho superior em reconhecimento e verificação facial com menos parâmetros que os métodos existentes.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

O artigo apresenta o RDFC-GAN, uma rede de fusão cíclica de duas ramificações que combina mapas de normais e um mecanismo de tradução RGB-para-Profundidade para preencher lacunas extensas em mapas de profundidade incompletos de ambientes internos, demonstrando desempenho superior nos conjuntos de dados NYU-Depth V2 e SUN RGB-D.

Haowen Wang, Zhengping Che, Yufan Yang + 6 more2026-02-24🤖 cs.AI

Adaptive Runge-Kutta Dynamics for Spatiotemporal Prediction

Este artigo apresenta um modelo de previsão espaço-temporal baseado em uma rede neural guiada por física que utiliza um método Runge-Kutta adaptativo de segunda ordem e um módulo de Fourier aprimorado por frequência, superando métodos existentes em tarefas de previsão de tempo e vídeo com maior precisão e menor contagem de parâmetros.

Xuanle Zhao, Yue Sun, Ziyi Wang + 2 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Este estudo demonstra que o sistema de estimativa de pose sem marcadores DeepLabCut, quando submetido a treinamento personalizado e função de refinamento, supera tanto o OpenPose quanto modelos pré-treinados, oferecendo uma solução precisa e de baixo custo para a análise da marcha em ambientes naturais.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

O artigo propõe o PASS, um novo framework baseado em hiper-rede recorrente que utiliza prompts visuais e estatísticas de pesos para identificar padrões de esparsidade estrutural de alta qualidade, resultando em sub-redes mais eficientes e precisas em comparação com métodos existentes.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Este artigo apresenta o MathScape, um novo benchmark focado em avaliar a capacidade de raciocínio matemático de modelos de linguagem multimodais em contextos reais capturados por humanos, revelando que, apesar dos avanços, os modelos de última geração ainda têm desempenho inferior ao humano e que a excelência em dados sintéticos não garante eficácia em cenários do mundo real.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

O artigo apresenta o $R^2$ -Mesh, um framework de aprendizado por reforço que aprimora a reconstrução de malhas a partir de NeRFs ao combinar pseudo-supervisão renderizada com uma estratégia de seleção de viewpoints baseada em UCB para otimizar dinamicamente a precisão geométrica e a qualidade de renderização.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

O artigo apresenta o CT-AGRG, um novo modelo que gera automaticamente relatórios médicos a partir de volumes de TC torácica 3D ao primeiro prever anomalias e, em seguida, criar descrições direcionadas para cada uma, superando as limitações dos métodos existentes e demonstrando melhorias significativas na qualidade e relevância clínica dos relatórios.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

Este artigo propõe uma nova representação geométrica que modela superfícies como distribuições utilizando modelos de difusão, superando as limitações de métodos baseados em coordenadas ao capturar detalhes finos e lidar com estruturas complexas, além de demonstrar eficácia em aplicações como compressão neural, modelagem dinâmica e renderização.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

O artigo apresenta o Speedy-Splat, uma abordagem que otimiza o pipeline de renderização e introduz uma técnica de poda para reduzir o tamanho do modelo e o tempo de treinamento, acelerando a renderização média em 6,71 vezes sem comprometer a fidelidade visual.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

O artigo apresenta o MEt3R, uma nova métrica independente do processo de amostragem que avalia a consistência multi-visão em imagens geradas ao utilizar reconstruções 3D densas via DUSt3R para comparar mapas de características entre vistas, permitindo a avaliação objetiva de diversos métodos de geração de novas visões e vídeos.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

O artigo apresenta uma solução polinomial rápida e precisa para o problema de quatro pontos na perspectiva, baseada numa nova separação de variáveis que reduz o problema a um de orientação absoluta, superando os algoritmos atuais em velocidade e mantendo a precisão sob ruído realista.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Este trabalho propõe um quadro inovador de aprendizado auto-supervisionado que utiliza atributos espaciais e temporais de imagens de rua para aprender representações urbanas robustas, superando métodos tradicionais em tarefas como reconhecimento de lugar, estimativa socioeconômica e percepção humano-ambiente.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

O estudo apresenta o SAMRI-2, um modelo de visão computacional baseado em memória que supera os métodos existentes na segmentação de cartilagem e menisco em ressonâncias magnéticas 3D do joelho, oferecendo maior precisão morfológica e reduzindo significativamente o esforço de anotação humana.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Este artigo apresenta o Interpretable Visual Prompt Tuning (IVPT), um novo framework que introduz protótipos de conceitos entre camadas para vincular prompts visuais a conceitos semânticos compreensíveis por humanos, permitindo a geração de prompts interpretáveis em múltiplas profundidades da rede e demonstrando superioridade em desempenho e interpretabilidade em benchmarks de classificação de granularidade fina.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Este artigo apresenta o Hier-COS, um novo framework que utiliza a composição de subespaços ortogonais para criar representações de características hierarquicamente conscientes e consistentes, superando as limitações das métricas de avaliação existentes através da proposta do HOPS e alcançando desempenho superior em tarefas de classificação hierárquica.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

← Anterior Próximo →

cs.CV