cs.CV artigos | Gist.Science

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

O artigo apresenta o Spa3R, um framework auto-supervisionado que utiliza o paradigma de Modelagem de Campo Espacial Preditivo (PSFM) para aprender representações espaciais unificadas a partir de imagens 2D não calibradas, permitindo que modelos de linguagem e visão (VLMs) alcancem um raciocínio espacial 3D superior sem depender de modalidades 3D explícitas.

Haoyi Jiang, Liu Liu, Xinjie Wang + 5 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

O artigo apresenta o HVG, um modelo de difusão de vídeo latente que gera vídeos humanos de alta qualidade, consistentes no espaço e no tempo, a partir de uma única imagem, permitindo controle preciso de pose 3D e viewpoint através de modulação articulada de pose, alinhamento de viewpoints e amostragem espaço-temporal progressiva.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Os autores desenvolveram o framework TomoROIS-SurfORA, que combina segmentação direta de regiões de interesse por aprendizado profundo e análise morfológica de superfícies para permitir a quantificação automática de características de membranas em imagens de criomicroscopia eletrônica de tomografia.

Xingyi Cheng, Julien Maufront, Aurélie Di Cicco + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Este artigo apresenta o "Planejamento Reflexivo em Tempo de Teste", um novo paradigma para LLMs corporificados que integra reflexão durante a ação, reflexão pós-ação e reflexão retrospectiva para permitir que robôs aprendam com erros e melhorem seu desempenho em tarefas de longo prazo, superando significativamente os modelos de base em benchmarks de tarefas domésticas e de manipulação.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Este artigo apresenta o método de agrupamento guiado por atenção (AGC) como uma técnica eficiente para compressão de índices de vetores múltiplos em qualquer modalidade, superando outros métodos de compressão e mantendo o desempenho competitivo em tarefas de recuperação de texto, documentos visuais e vídeo.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

O artigo apresenta o Squint, um método de aprendizado por reforço visual baseado em Soft Actor Critic que, ao empregar técnicas como simulação paralela e "resolução squinting", alcança um tempo de treinamento mais rápido que métodos anteriores e permite a transferência bem-sucedida de políticas treinadas em simulação para um robô real em apenas 15 minutos.

Abdulaziz Almuzairee, Henrik I. Christensen2026-02-25🤖 cs.LG

Label-free segmentation from cardiac ultrasound using self-supervised learning

Os autores desenvolveram um pipeline de aprendizado auto-supervisionado que realiza segmentação de câmaras cardíacas em ultrassons sem necessidade de anotações manuais, alcançando precisão clínica comparável aos métodos supervisionados e ao padrão-ouro de ressonância magnética.

Danielle L. Ferreira, Connor Lau, Zaynaf Salaymang + 1 more2026-02-24⚡ eess

Face Pyramid Vision Transformer

O artigo propõe o Face Pyramid Vision Transformer (FPVT), uma nova arquitetura que combina mecanismos de atenção espacial e redes feed-forward convolucionais para criar representações faciais discriminativas em múltiplas escalas, alcançando desempenho superior em reconhecimento e verificação facial com menos parâmetros que os métodos existentes.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Este artigo combina experimentos psicofísicos humanos e modelagem computacional para demonstrar que tanto humanos quanto o modelo biologicamente inspirado SeCo podem aprender rapidamente a inferir objetos ocultos a partir de contextos visuais sem supervisão, destacando o papel fundamental das associações contextuais na compreensão de cenas.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

O artigo apresenta o RDFC-GAN, uma rede de fusão cíclica de duas ramificações que combina mapas de normais e um mecanismo de tradução RGB-para-Profundidade para preencher lacunas extensas em mapas de profundidade incompletos de ambientes internos, demonstrando desempenho superior nos conjuntos de dados NYU-Depth V2 e SUN RGB-D.

Haowen Wang, Zhengping Che, Yufan Yang + 6 more2026-02-24🤖 cs.AI

Adaptive Runge-Kutta Dynamics for Spatiotemporal Prediction

Este artigo apresenta um modelo de previsão espaço-temporal baseado em uma rede neural guiada por física que utiliza um método Runge-Kutta adaptativo de segunda ordem e um módulo de Fourier aprimorado por frequência, superando métodos existentes em tarefas de previsão de tempo e vídeo com maior precisão e menor contagem de parâmetros.

Xuanle Zhao, Yue Sun, Ziyi Wang + 2 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Este estudo demonstra que o sistema de estimativa de pose sem marcadores DeepLabCut, quando submetido a treinamento personalizado e função de refinamento, supera tanto o OpenPose quanto modelos pré-treinados, oferecendo uma solução precisa e de baixo custo para a análise da marcha em ambientes naturais.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

O artigo propõe o PASS, um novo framework baseado em hiper-rede recorrente que utiliza prompts visuais e estatísticas de pesos para identificar padrões de esparsidade estrutural de alta qualidade, resultando em sub-redes mais eficientes e precisas em comparação com métodos existentes.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Este artigo apresenta o MathScape, um novo benchmark focado em avaliar a capacidade de raciocínio matemático de modelos de linguagem multimodais em contextos reais capturados por humanos, revelando que, apesar dos avanços, os modelos de última geração ainda têm desempenho inferior ao humano e que a excelência em dados sintéticos não garante eficácia em cenários do mundo real.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

O artigo apresenta o $R^2$ -Mesh, um framework de aprendizado por reforço que aprimora a reconstrução de malhas a partir de NeRFs ao combinar pseudo-supervisão renderizada com uma estratégia de seleção de viewpoints baseada em UCB para otimizar dinamicamente a precisão geométrica e a qualidade de renderização.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

O artigo apresenta o CT-AGRG, um novo modelo que gera automaticamente relatórios médicos a partir de volumes de TC torácica 3D ao primeiro prever anomalias e, em seguida, criar descrições direcionadas para cada uma, superando as limitações dos métodos existentes e demonstrando melhorias significativas na qualidade e relevância clínica dos relatórios.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

Este artigo propõe uma nova representação geométrica que modela superfícies como distribuições utilizando modelos de difusão, superando as limitações de métodos baseados em coordenadas ao capturar detalhes finos e lidar com estruturas complexas, além de demonstrar eficácia em aplicações como compressão neural, modelagem dinâmica e renderização.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

O artigo apresenta o Speedy-Splat, uma abordagem que otimiza o pipeline de renderização e introduz uma técnica de poda para reduzir o tamanho do modelo e o tempo de treinamento, acelerando a renderização média em 6,71 vezes sem comprometer a fidelidade visual.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

O artigo apresenta o MEt3R, uma nova métrica independente do processo de amostragem que avalia a consistência multi-visão em imagens geradas ao utilizar reconstruções 3D densas via DUSt3R para comparar mapas de características entre vistas, permitindo a avaliação objetiva de diversos métodos de geração de novas visões e vídeos.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

O artigo apresenta uma solução polinomial rápida e precisa para o problema de quatro pontos na perspectiva, baseada numa nova separação de variáveis que reduz o problema a um de orientação absoluta, superando os algoritmos atuais em velocidade e mantendo a precisão sob ruído realista.

David Lehavi, Brian Osserman2026-02-24💻 cs

← Anterior Próximo →

cs.CV