cs.CV artigos | Gist.Science

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Este trabalho propõe o método LOOP (Leave-One-Out PPO), uma nova abordagem de aprendizado por reforço para o ajuste fino de modelos de difusão texto-para-imagem que combina técnicas de redução de variância do REINFORCE com a robustez e eficiência amostral do PPO, superando as limitações de ambos ao alcançar um melhor equilíbrio entre eficiência de amostragem e desempenho final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Este artigo propõe um modelo de aprendizado profundo geométrico baseado em transformadores, que utiliza uma nova esquematização de tokenização em malhas tetraédricas com marcos anatômicos para melhorar o diagnóstico da doença de Alzheimer e prever a positividade da amiloide cerebral em indivíduos de risco médio, oferecendo uma alternativa precisa e não invasiva aos exames PET.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

O artigo apresenta o Snapmoji, um sistema que gera instantaneamente avatares 3D animáveis e personalizáveis em dispositivos móveis, utilizando uma técnica de adaptação de domínio gaussiano para mapear selfies a um estilo principal e aplicar um estilo secundário, preservando a identidade do usuário e superando as limitações de plataformas existentes.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

O artigo apresenta o SceneEval, um novo framework de avaliação e o conjunto de dados SceneEval-500, projetados para superar as limitações das métricas atuais ao medir de forma abrangente e interpretável tanto os requisitos explícitos quanto as expectativas implícitas de coerência semântica na síntese de cenas 3D internas condicionadas a texto.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este artigo propõe uma abordagem de Aprendizado Compatível com o Passado (BCL) que relaxa as restrições de alinhamento estritas ao introduzir perturbações nos protótipos de características antigas, preservando assim a capacidade discriminativa do novo modelo sem a necessidade de um processo computacionalmente custoso de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabalho propõe um método unificado para a reconstrução robusta de duas mãos a partir de imagens monoculares, combinando um codificador de fusão-alinhamento que integra implicitamente priores estruturais heterogêneos de modelos de visão fundamentais com um modelo de difusão livre de penetração que gera interações 3D fisicamente plausíveis, superando assim desafios de oclusão e alinhamento.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Este artigo propõe um novo modelo de conclusão de instâncias baseado em nuvem de pontos que integra restrições de cena via mecanismo de atenção cruzada para lidar com objetos em escalas e poses arbitrárias, validado através de um novo dataset chamado ScanWCF que demonstra superioridade em fidelidade e qualidade de conclusão em comparação com métodos existentes.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

O artigo apresenta o LEL, um novo framework de aprendizado emsemble com restrições de continuidade de Lipschitz que melhora a estabilidade, robustez e precisão do reconhecimento de emoções baseado em EEG intra-sujeito, alcançando desempenho superior em três conjuntos de dados públicos.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

O artigo propõe o framework O-VIB, uma abordagem de compressão semântica orientada a tarefas inspirada na cognição espacial que utiliza um codificador de gargalo de informação variacional com restrições ortogonais para extrair e transmitir características multiview compactas, permitindo localização visual precisa em plataformas móveis com recursos limitados e ambientes urbanos sem GPS.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

O artigo apresenta o DeepSparse, o primeiro modelo de fundação para reconstrução de CBCT com visão esparsa, que utiliza a arquitetura DiCE e o framework HyViP para superar os desafios de demanda computacional e generalização, permitindo imagens de alta qualidade com menor exposição à radiação.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

O artigo apresenta o M³CAD, um benchmark abrangente e multimodal com dados de múltiplos veículos e sensores, projetado para impulsionar a pesquisa em direção autônoma cooperativa genérica, incluindo a proposta de uma nova abordagem de fusão multi-nível que equilibra eficiência de comunicação e precisão de percepção.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

O artigo apresenta o FoldNet, um framework que utiliza síntese de dados baseada em keypoints e aprendizado por imitação em malha fechada com a estratégia KG-DAgger para treinar uma política de controle robusta capaz de dobrar roupas com 75% de sucesso no mundo real.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

O artigo apresenta o MTVCraft, um framework pioneiro que tokeniza sequências de movimento 3D bruto em tokens de movimento 4D para superar as limitações dos métodos baseados em poses 2D, permitindo a animação zero-shot de personagens arbitrários e objetos não humanos com controle mais flexível e generalização superior.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

O artigo propõe um quadro unificado de meta-aprendizado profundo para ressonância magnética (MRI) acelerada, que combina algoritmos de otimização desdobrados com regularização não convexa e aprendizado meta para melhorar a reconstrução multi-coil e a síntese multi-modal, demonstrando superioridade em cenários de subamostragem agressiva e mudanças de domínio.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

O artigo apresenta o EgoDex, o maior e mais diverso conjunto de dados de manipulação destreza humana até hoje, composto por 829 horas de vídeos egocêntricos com rastreamento 3D de mãos coletados via Apple Vision Pro, visando superar a escassez de dados para o aprendizado por imitação em robótica e visão computacional.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

O artigo apresenta o Vid2World, uma abordagem geral que transforma modelos de difusão de vídeo pré-treinados em modelos de mundo interativos de alta fidelidade e controláveis, superando as limitações de métodos existentes através da causalização da arquitetura e de um mecanismo de orientação causal para ações.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Este artigo apresenta um novo paradigma para a reconstrução de interfaces 3D em Tomografia de Impedância Elétrica que combina um prior generativo pré-treinado com um solver de equações integrais de fronteira, garantindo consistência física rigorosa e alta eficiência de dados ao tratar as equações governantes como restrições rígidas em vez de penalidades suaves.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artigo apresenta o GLMask, uma abordagem de aprendizado semi-autossupervisionado que transforma segmentação semântica em segmentação de instâncias com mínima anotação manual, alcançando desempenho superior tanto na detecção de espigas de trigo quanto no conjunto de dados COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudo apresenta um modelo de GAN com penalização de variância, baseado na arquitetura pyramid pix2pix, que traduz imagens de histologia H&E em imagens de imuno-histoquímica (IHC) de alta fidelidade para avaliar a superexpressão de HER2 no câncer de mama, superando os métodos existentes em precisão e oferecendo uma alternativa eficiente e acessível para a oncologia de precisão.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

← Anterior Próximo →