cs.CV artigos | Gist.Science

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este artigo propõe o primeiro método para o esquecimento de rótulos em Aprendizado Federado Vertical, utilizando um mecanismo de mixup em nível de representação e otimização baseada em gradiente para garantir a privacidade sem revelar dados sensíveis, mantendo a eficiência computacional e a utilidade do modelo.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

O artigo propõe o SDPO, um novo quadro de aprendizado por reforço que alinha modelos de difusão de poucos passos a objetivos específicos através de uma otimização baseada em diferenças de recompensa densa e amostragem de trajetória de dupla estado, superando as limitações existentes para gerar imagens de alta resolução com maior eficiência e qualidade.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

O TREND é um método inovador de aprendizado de representação 3D não supervisionado para percepção LiDAR que utiliza previsão temporal e campos neurais para gerar embeddings 3D ao longo do tempo, superando significativamente os métodos anteriores em tarefas de detecção de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artigo apresenta o GenVidBench, o maior conjunto de dados existente para detecção de vídeos gerados por IA, composto por 6,78 milhões de vídeos provenientes de 11 geradores de última geração e estruturado para garantir diversidade e robustez no treinamento de modelos de detecção.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artigo propõe um método de constância de cor multi-iluminante que utiliza uma rede de convolução tri-ramificada para estimar mapas de iluminação em múltiplas escalas e fundi-los adaptativamente via um módulo de atenção, alcançando desempenho superior ao estado da arte ao abordar a influência das escalas da imagem.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

O artigo apresenta o DSV, um método que acelera o treinamento de DiTs de vídeo em larga escala explorando a esparsidade dinâmica da atenção através de aproximação de baixo posto, kernels personalizados e paralelismo de contexto híbrido, alcançando um aumento de até 3,02 vezes no rendimento de treinamento sem perda de qualidade.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Este artigo propõe um método de marcação d'água robusto e sem necessidade de retreinamento, aplicado durante a inferência de modelos generativos como os de difusão, para garantir a detecção de conteúdo sintético e a identificação do usuário mesmo sob ataques de remoção ou perturbações.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Este trabalho propõe uma abordagem inovadora baseada em modelos de difusão para gerar dados sintéticos de cenas 3D semânticas realistas sem depender de projeções ou modelos desacoplados, demonstrando que o uso desses dados sintéticos no treinamento de redes de segmentação semântica melhora o desempenho do modelo e reduz a necessidade de anotação manual de dados reais.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

O artigo apresenta o TextCrafter, um framework de geração de texto visual complexo que utiliza mecanismos inovadores de "isolamento e atenção" baseados em aprendizado por reforço e portas de atenção guiadas por citações para superar o estado da arte em precisão e qualidade, além de introduzir o novo benchmark CVTG-2K.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

O artigo apresenta o KARMMA, um framework de destilação de conhecimento multimodal para reconhecimento de ações egocêntricas que, ao não exigir alinhamento de modalidades durante o treinamento e ser robusto a entradas faltantes, permite a implantação eficiente em robôs com configurações de sensores variadas e recursos computacionais reduzidos.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

Os autores investigam os parâmetros ideais para a geração de dados sintéticos em correspondência estéreo zero-shot, criando um novo conjunto de dados que supera a mistura de datasets existentes e rivaliza com o FoundationStereo, enquanto disponibilizam o código de geração e a análise de parâmetros como recursos de código aberto.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

O artigo apresenta o FermatSyn, um novo método para síntese de imagens médicas multimodais que combina um codificador baseado no SAM2, um módulo de downsampling residual hierárquico e uma estratégia de varredura em espiral de Fermat bidirecional para superar as limitações de consistência anatômica global e detalhe local, demonstrando desempenho superior e utilidade clínica em diversos conjuntos de dados.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Este artigo examina a integração de métodos baseados em grafos na análise de séries temporais de imagens de satélite, apresentando um pipeline versátil para modelar interações espaciais e temporais em nível de objeto, com revisões abrangentes e estudos de caso que demonstram seu potencial para mapeamento de cobertura do solo e previsão de recursos hídricos.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

O artigo apresenta o MIRAGE, um quadro de restauração de imagens eficiente e agnóstico à degradação que combina decomposição funcional por canal e regularização de variedade para alcançar desempenho superior e escalabilidade em cenários diversos.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

O artigo apresenta o OmniFall, um benchmark unificado e multi-domínio que combina dados de quedas encenadas, sintéticas e reais (in-the-wild) com anotações densas padronizadas, permitindo o desenvolvimento e avaliação de modelos robustos de detecção de quedas que generalizam para ambientes não controlados enquanto preservam a privacidade.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

O artigo apresenta o Cora, um novo framework de edição de imagens baseado em difusão que utiliza correção de ruído consciente de correspondência e mapas de atenção interpolados para realizar edições estruturais complexas com alta fidelidade na preservação de texturas, pose e identidade.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

← Anterior Próximo →