cs.CV artigos | Gist.Science

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

O artigo apresenta o MME, um novo framework de Mistura de Especialistas que utiliza um mecanismo de portão baseado em passeio aleatório e atenção para especializar diferentes modelos em classes específicas de malhas, alcançando resultados state-of-the-art em classificação, recuperação e segmentação semântica.

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

Os autores propõem o UHDPromer, um Transformer baseado em priores de discriminação neural que explora as diferenças entre características de alta e baixa resolução para restaurar e aprimorar imagens em ultra-alta definição com eficiência computacional e desempenho de ponta.

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

O artigo apresenta o PPC-MT, um novo framework paralelo para conclusão de nuvens de pontos que combina uma arquitetura híbrida Mamba-Transformer e uma estratégia guiada por PCA para equilibrar alta eficiência computacional com reconstrução de alta fidelidade, superando os métodos mais avançados em diversos benchmarks.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

O artigo apresenta o MMTA, um modelo de atenção temporal que permite a cada quadro assistir a múltiplas janelas temporais simultaneamente, melhorando significativamente a precisão na segmentação de micro-movimentos e transições de fase para a avaliação de reabilitação de AVC, tanto em vídeos quanto em dados de sensores vestíveis.

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

O artigo propõe o SMART, um novo framework semi-supervisionado baseado em SAM3 que utiliza consistência de movimento e regularização progressiva de confiança para superar desafios como bordas desfocadas e falta de dados anotados, alcançando desempenho superior na segmentação de artérias coronárias em vídeos de angiografia.

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

Este artigo apresenta um novo quadro de inversão não linear e cego que unifica pela primeira vez a recuperação da anatomia, a síntese de imagens cine de alta resolução e a estimativa de movimento em ressonância magnética com marcação, combinando física de MR e priores generativos profundos para superar desafios como o desvanecimento das marcas e a entrelaçamento entre anatomia e movimento.

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

O artigo apresenta o VEMamba, um framework eficiente que utiliza um novo paradigma de reordenação de dependências 3D e simulação realista de degradação para realizar reconstrução isotrópica de microscopia eletrônica volumétrica, superando as limitações de métodos existentes ao garantir consistência axial-lateral com menor custo computacional.

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

O artigo apresenta o pySpatial, uma estrutura de programação visual que capacita modelos de linguagem multimodais a realizar raciocínio espacial zero-shot em 3D através da geração de código Python para interagir com ferramentas espaciais, superando significativamente os modelos de base em benchmarks desafiadores e demonstrando eficácia em navegação robótica real.

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

Este artigo apresenta o UD-SfPNet, uma rede neural unificada que combina descortinamento de imagens subaquáticas com estimativa de normais de superfície baseada em polarização para realizar reconstrução 3D precisa, superando os desafios da dispersão de luz e alcançando a maior acurácia relatada no conjunto de dados MuS-Polar3D.

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

Este artigo propõe um algoritmo determinístico hierárquico que extrai exata e eficientemente tesselações retangulares finitas em grades planas através da descoberta de padrões compostos, normalização para formas representativas mínimas e extração de primos, preenchendo uma lacuna na análise simbólica de estruturas repetitivas para aplicações como resolução de quebra-cabeças.

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

O artigo apresenta o VGGT-Det, o primeiro framework para detecção 3D de objetos em ambientes internos multi-visão sem geometria de sensores, que integra um encoder VGGT em um pipeline baseado em transformer com mecanismos de geração de consultas guiada por atenção e agregação de características orientada por consultas para explorar priores semânticos e geométricos internos, superando significativamente os métodos existentes.

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

O artigo apresenta o DriveCode, um método inovador de codificação numérica que representa números como embeddings dedicados em vez de tokens de texto, superando as limitações de precisão e eficiência dos modelos de linguagem atuais para melhorar a previsão de trajetórias e a geração de comandos de controle em sistemas de direção autônoma.

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

O estudo revela que os modelos de linguagem e visão (VLMs) falham ao analisar erros de alunos com dificuldades no benchmark DrawEduMath, indicando que, embora sejam competentes na resolução de problemas matemáticos, carecem de incentivos de desenvolvimento adequados para apoiar efetivamente aplicações pedagógicas.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Este artigo apresenta o "Beyond8Bits", um grande conjunto de dados subjetivo para vídeos HDR gerados por usuários, e o "HDR-Q", o primeiro modelo de linguagem multimídia projetado especificamente para avaliar a qualidade desses vídeos, superando os métodos tradicionais voltados para SDR.

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

O artigo apresenta o StegoNGP, um método inovador de esteganografia criptográfica 3D que utiliza a codificação hash do Instant-NGP para esconder uma cena completa dentro de uma única rede neural indistinguível, oferecendo alta capacidade, robustez e segurança sem necessidade de decodificadores externos ou modificações arquiteturais.

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

O artigo demonstra que o uso de clamping de margem no aprendizado Contrastivo Forward-Forward pode inflacionar significativamente a variância do treinamento em cenários específicos (como CIFAR-10) devido à saturação de gradientes, mas esse efeito é dependente do conjunto de dados e pode ser mitigado substituindo o clamping por uma subtração de margem neutra em relação ao gradiente.

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

O artigo apresenta o VeGaS, um novo framework de 4D Gaussian Splatting que desacopla o movimento e a geometria das Gausianas através de uma matriz de cisalhamento galileana e de uma rede de deformação geométrica, resultando em reconstruções de cenas dinâmicas de alta fidelidade com estado da arte.

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

O artigo apresenta o EraseAnything++, um framework unificado que utiliza otimização multi-objetivo e técnicas de ajuste de parâmetros para remover conceitos indesejados de modelos de difusão baseados em fluxo e transformadores para geração de imagens e vídeos, garantindo simultaneamente a preservação da qualidade generativa e da consistência temporal.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este artigo propõe um framework de pré-treinamento supervisionado sintético que integra lógica anatômica realista e restrições topológicas para superar as limitações de métodos baseados em formas genéricas, resultando em um desempenho superior e escalável para segmentação médica 3D sem violar a privacidade dos dados.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

Event-Anchored Frame Selection for Effective Long-Video Understanding

Este artigo apresenta o EFS, um módulo plug-and-play e sem treinamento que melhora a compreensão de vídeos longos em modelos LVLM ao selecionar frames-chave baseados em eventos e relevância para a consulta, superando significativamente os métodos de amostragem plana em benchmarks desafiadores.

Wang Chen, Yongdong Luo, Yuhui Zeng + 5 more2026-03-03💻 cs

← Anterior Próximo →