cs.CV artigos | Gist.Science

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

O artigo apresenta o M³CAD, um benchmark abrangente e multimodal com dados de múltiplos veículos e sensores, projetado para impulsionar a pesquisa em direção autônoma cooperativa genérica, incluindo a proposta de uma nova abordagem de fusão multi-nível que equilibra eficiência de comunicação e precisão de percepção.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

O artigo apresenta o FoldNet, um framework que utiliza síntese de dados baseada em keypoints e aprendizado por imitação em malha fechada com a estratégia KG-DAgger para treinar uma política de controle robusta capaz de dobrar roupas com 75% de sucesso no mundo real.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

O artigo apresenta o MTVCraft, um framework pioneiro que tokeniza sequências de movimento 3D bruto em tokens de movimento 4D para superar as limitações dos métodos baseados em poses 2D, permitindo a animação zero-shot de personagens arbitrários e objetos não humanos com controle mais flexível e generalização superior.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

O artigo propõe um quadro unificado de meta-aprendizado profundo para ressonância magnética (MRI) acelerada, que combina algoritmos de otimização desdobrados com regularização não convexa e aprendizado meta para melhorar a reconstrução multi-coil e a síntese multi-modal, demonstrando superioridade em cenários de subamostragem agressiva e mudanças de domínio.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

O artigo apresenta o EgoDex, o maior e mais diverso conjunto de dados de manipulação destreza humana até hoje, composto por 829 horas de vídeos egocêntricos com rastreamento 3D de mãos coletados via Apple Vision Pro, visando superar a escassez de dados para o aprendizado por imitação em robótica e visão computacional.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

O artigo apresenta o Vid2World, uma abordagem geral que transforma modelos de difusão de vídeo pré-treinados em modelos de mundo interativos de alta fidelidade e controláveis, superando as limitações de métodos existentes através da causalização da arquitetura e de um mecanismo de orientação causal para ações.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Este artigo apresenta um novo paradigma para a reconstrução de interfaces 3D em Tomografia de Impedância Elétrica que combina um prior generativo pré-treinado com um solver de equações integrais de fronteira, garantindo consistência física rigorosa e alta eficiência de dados ao tratar as equações governantes como restrições rígidas em vez de penalidades suaves.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Este artigo apresenta o GLMask, uma abordagem de aprendizado semi-autossupervisionado que transforma segmentação semântica em segmentação de instâncias com mínima anotação manual, alcançando desempenho superior tanto na detecção de espigas de trigo quanto no conjunto de dados COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudo apresenta um modelo de GAN com penalização de variância, baseado na arquitetura pyramid pix2pix, que traduz imagens de histologia H&E em imagens de imuno-histoquímica (IHC) de alta fidelidade para avaliar a superexpressão de HER2 no câncer de mama, superando os métodos existentes em precisão e oferecendo uma alternativa eficiente e acessível para a oncologia de precisão.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

O artigo apresenta o LINO UniPS, um método de estereoscopia fotométrica universal que utiliza tokens de registro de luz e atenção intercalada para desacoplar iluminação e normais, além de uma arquitetura baseada em wavelets para preservar detalhes geométricos, alcançando resultados state-of-the-art no novo conjunto de dados PS-Verse.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artigo apresenta um novo framework em cascata guiado por Modelos de Linguagem e Visão (VLM) para a Segmentação de Objetos Camuflados em Vocabulário Aberto, que utiliza características do VLM como prompts explícitos para o Segment Anything Model (SAM) a fim de melhorar a localização e emprega a saída de segmentação como um prior espacial suave para evitar lacunas de domínio na classificação, superando assim as limitações dos métodos existentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

O artigo apresenta o LD-RPS, uma abordagem unificada e sem dados para restauração de imagens que utiliza amostragem recorrente de posterior em um modelo de difusão latente pré-treinado, combinado com um modelo de compreensão multimodal e um módulo leve de alinhamento, superando os métodos atuais ao lidar com diversos tipos de degradação sem necessidade de treinamento supervisionado.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Este artigo demonstra que orientar sistemas de IA através de uma "dieta visual" inspirada no desenvolvimento humano, focada na maturação da acuidade, sensibilidade ao contraste e cor, resulta em modelos de visão artificial mais robustos, que priorizam a forma em vez da textura e apresentam maior resiliência a distorções e ataques adversariais.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artigo apresenta a Agregação Adaptativa Baseada em Consultas (QAA), uma técnica inovadora que utiliza consultas aprendidas como códigos de referência para melhorar a capacidade de agregação de informações e superar os vieses específicos de conjuntos de dados, permitindo o treinamento conjunto eficaz de múltiplos conjuntos para reconhecimento visual universal de locais com generalização equilibrada e desempenho superior.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artigo apresenta o MCULoRA, uma abordagem inovadora de adaptação de baixo rank que decopla informações compartilhadas e ajusta dinamicamente o treinamento para superar conflitos de gradientes e melhorar o reconhecimento de emoções em cenários multimodais incompletos.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o $π^3$ , uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Este artigo apresenta o InsightX Agent, um novo framework baseado em Modelos Multimodais Grandes (LMM) que orquestra ferramentas especializadas para realizar análise confiável, interpretável e interativa de ensaios não destrutivos por raios-X, superando as limitações de abordagens tradicionais de aprendizado profundo.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

← Anterior Próximo →

cs.CV