cs.CV artigos | Gist.Science

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

O artigo apresenta o 3DSPA, um autoencoder de pontos semânticos 3D que avalia automaticamente o realismo, a consistência temporal e a plausibilidade física de vídeos gerados por IA ao integrar trajetórias 3D, profundidade e características semânticas, superando métodos manuais e alinhando-se melhor aos julgamentos humanos.

Bhavik Chandna, Kelsey R. Allen2026-02-25💻 cs

Momentum Guidance: Plug-and-Play Guidance for Flow Models

O artigo apresenta a "Momentum Guidance", uma técnica plug-and-play que melhora a qualidade e a fidelidade de amostras geradas por modelos de fluxo sem aumentar o custo computacional, ao extrapolar a velocidade atual utilizando uma média móvel exponencial das velocidades passadas.

Runlong Liao, Jian Yu, Baiyu Su + 3 more2026-02-25🤖 cs.LG

Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

Este trabalho apresenta um novo método para sugestão de viewpoints estéticos em 3D que, ao definir um "campo estético 3D" aprendido via Splatting Gaussiano a partir de capturas esparsas e um modelo 2D pré-treinado, permite a identificação eficiente de enquadramentos superiores sem a necessidade de ambientes 3D densos ou buscas por aprendizado por reforço.

Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu + 2 more2026-02-25💻 cs

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

O artigo apresenta o SimLBR, um framework eficiente que detecta imagens falsas ao aprender uma fronteira de decisão rigorosa em torno da distribuição de imagens reais por meio da Regularização de Mistura Latente (LBR), superando significativamente os métodos existentes em generalização e velocidade de treinamento.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

gQIR: Generative Quanta Image Reconstruction

O artigo apresenta o gQIR, um método que adapta modelos de difusão latente de grande escala para reconstruir imagens de alta qualidade a partir de dados esparsos e ruidosos de sensores SPAD, superando as limitações dos pipelines tradicionais em cenários com poucos fótons.

Aryan Garg, Sizhuo Ma, Mohit Gupta2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

O artigo apresenta o MedCLIPSeg, um novo framework que adapta modelos de visão e linguagem como o CLIP para a segmentação de imagens médicas, utilizando atenção cruzada probabilística e perda contrastiva suave para alcançar alta precisão, eficiência de dados e generalização de domínio com mapas de incerteza interpretáveis.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

O artigo apresenta o SceMoS, um framework de síntese de movimento 3D que alcança estado da arte ao desacoplar o planejamento global e a execução local utilizando representações 2D leves (imagens em vista de pássaro e mapas de altura), eliminando a necessidade de dados 3D volumétricos computacionalmente caros enquanto mantém alta fidelidade física e realismo.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

O artigo propõe o "Path-Decoupled Hyperbolic Flow Matching" (HFM), um novo método para adaptação com poucos exemplos que supera as limitações da geometria euclidiana ao utilizar a expansão exponencial da variedade de Lorentz para desacoplar trajetórias e alinhar características visuais e semânticas de forma mais eficiente, alcançando resultados state-of-the-art em 11 benchmarks.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

O artigo apresenta o Pip-Stereo, um método de correspondência estéreo que alcança alta precisão e eficiência em dispositivos de borda ao combinar uma estratégia de poda progressiva de iterações, uma transferência de prior monococular colaborativa e um operador FlashGRU otimizado para hardware, eliminando a dependência de redes recorrentes tradicionais e permitindo inferência em tempo real.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Este artigo apresenta um framework autônomo para controle de câmera laparoscópica que combina mineração de grafos de eventos para extrair primitivas estratégicas e um modelo de visão-linguagem para execução em tempo real, demonstrando superioridade sobre cirurgiões júnior na estabilidade da imagem e precisão do campo de visão em experimentos ex vivo.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

How Do Inpainting Artifacts Propagate to Language?

Este estudo investiga como artefatos visuais introduzidos por inpainting baseado em difusão afetam a geração de linguagem em modelos visão-linguagem, estabelecendo uma relação consistente entre a fidelidade da reconstrução e a qualidade das legendas geradas.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover + 1 more2026-02-25🤖 cs.AI

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

Este estudo propõe um framework leve de fusão visão-linguagem que combina MobileNetV3 e DistilBERT para prever avaliações de aplicativos móveis integrando informações visuais de interfaces e dados semânticos, alcançando alto desempenho e viabilidade para dispositivos de borda.

Azrin Sultana, Firoz Ahmed2026-02-25💻 cs

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Este artigo apresenta um pipeline progressivo que integra estimativa de disparidade DEFOM-Stereo, segmentação SAM3 e otimização de profundidade em múltiplos estágios para gerar nuvens de pontos 3D precisas de galhos individuais em florestas, viabilizando a poda autônoma por drones.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Este artigo apresenta uma abordagem de agentes múltiplos que combina detecção profunda e modelos de visão-linguagem para automatizar a contagem de unidades formadoras de colônias na fabricação farmacêutica, alcançando uma redução de 85% na verificação humana e garantindo conformidade regulatória através de um sistema escalável e autoaperfeiçoável.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Este estudo propõe o método de Otimização de Proteção de Limiar (TGO), que combina restrições no potencial de membrana e neurônios esparsos probabilísticos para mitigar a vulnerabilidade de Redes Neurais de Espinhos (SNNs) a ataques adversariais, aumentando significativamente sua robustez em ambientes complexos.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

O artigo propõe o \method, um estimador eficiente em termos de amostras que calcula a evidência do modelo para priores baseados em difusão integrando sobre as marginais temporais de métodos de amostragem posterior, permitindo a seleção precisa de priores e o diagnóstico de incompatibilidade em problemas inversos de imagem altamente mal condicionados.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Este artigo apresenta o Teorema da Base Primitiva Finita, que prova que qualquer modelo de imagem computacional pode ser aproximado com precisão arbitrária por um grafo acíclico direcionado composto exclusivamente por 11 primitivas canônicas, estabelecendo assim as fundações matemáticas para a representação unificada de modalidades de imagem lineares e não lineares.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

O artigo apresenta o WildGHand, um framework baseado em otimização que utiliza splatting gaussiano 3D adaptativo e um módulo de desemaranhamento de perturbações para reconstruir avatares de mãos de alta fidelidade a partir de vídeos monoculares em cenários do mundo real, superando desafios como interações com objetos, poses extremas e mudanças de iluminação.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

O artigo apresenta o BFA++, um framework de poda dinâmica de tokens projetado especificamente para modelos de Visão-Linguagem-Ação (VLA) que utiliza uma estratégia hierárquica de dois níveis para identificar regiões e vistas críticas, resultando em maior eficiência computacional e taxas de sucesso aprimoradas em tarefas de manipulação robótica.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

O artigo apresenta o AIForge-Doc, o primeiro benchmark focado em detectar falsificações de documentos financeiros e formulários geradas por modelos de difusão, revelando que os detectores de estado da arte e modelos de linguagem visual atuais falham drasticamente ao identificar essas manipulações em nível de pixel.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

← Anterior Próximo →