cs.CV artigos | Gist.Science

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

O artigo apresenta o Dite-HRNet, uma rede leve de alta resolução que utiliza blocos inovadores com convolução dinâmica e modelagem de contexto adaptativo para capturar eficientemente informações multiescala e dependências espaciais de longo alcance, superando redes leves de última geração nas tarefas de estimativa de pose humana nos conjuntos de dados COCO e MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

O artigo apresenta o CO^3, um método de aprendizado de representação 3D não supervisionado para cenas externas que utiliza dados cooperativos de LiDAR veicular e de infraestrutura, combinando aprendizado contrastivo com previsão de contexto de forma para superar limitações anteriores e alcançar desempenho superior em tarefas de detecção.

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Este artigo propõe um esquema de detecção de falhas para painéis solares fotovoltaicos baseado em uma rede neural convolucional (CNN) treinada, que alcança alta precisão na classificação binária e multiclasse de defeitos, superando modelos anteriores e oferecendo uma solução simples e eficaz para garantir a robustez do sistema.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabalho aborda o problema da superotimização de recompensa em modelos de difusão ao identificar vieses indutivos e de primazia como causas raiz, propondo o algoritmo TDPO-R que explora o viés indutivo temporal e redefina neurônios ativos do crítico para mitigar esses efeitos e melhorar o alinhamento com preferências humanas.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

O artigo apresenta o Uni-ISP, uma nova abordagem que unifica o aprendizado de processadores de imagem (ISPs) para diversas câmeras móveis através de embeddings específicos do dispositivo e de um esquema de treinamento inovador, resultando em maior precisão, adaptabilidade e novas aplicações, além de disponibilizar o conjunto de dados FiveCam para validação.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

O artigo apresenta o R2GenCSR, um novo framework eficiente para geração de relatórios radiológicos que utiliza o Mamba como backbone visual de complexidade linear e recupera informações contextuais do conjunto de treinamento para aprimorar a representação de características e a geração de relatórios médicos de alta qualidade por meio de Modelos de Linguagem de Grande Escala (LLMs).

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

O artigo propõe o Shuffle Mamba, um novo modelo de espaço de estado para fusão de imagens multimodais que elimina vieses de varredura fixa através de uma estratégia de embaralhamento aleatório inspirada em Bayes e de uma inversão teórica, demonstrando desempenho superior em diversas tarefas de fusão.

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este artigo propõe o primeiro método para o esquecimento de rótulos em Aprendizado Federado Vertical, utilizando um mecanismo de mixup em nível de representação e otimização baseada em gradiente para garantir a privacidade sem revelar dados sensíveis, mantendo a eficiência computacional e a utilidade do modelo.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

O artigo propõe o SDPO, um novo quadro de aprendizado por reforço que alinha modelos de difusão de poucos passos a objetivos específicos através de uma otimização baseada em diferenças de recompensa densa e amostragem de trajetória de dupla estado, superando as limitações existentes para gerar imagens de alta resolução com maior eficiência e qualidade.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

O TREND é um método inovador de aprendizado de representação 3D não supervisionado para percepção LiDAR que utiliza previsão temporal e campos neurais para gerar embeddings 3D ao longo do tempo, superando significativamente os métodos anteriores em tarefas de detecção de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artigo apresenta o GenVidBench, o maior conjunto de dados existente para detecção de vídeos gerados por IA, composto por 6,78 milhões de vídeos provenientes de 11 geradores de última geração e estruturado para garantir diversidade e robustez no treinamento de modelos de detecção.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

Este artigo propõe um método de constância de cor multi-iluminante que utiliza uma rede de convolução tri-ramificada para estimar mapas de iluminação em múltiplas escalas e fundi-los adaptativamente via um módulo de atenção, alcançando desempenho superior ao estado da arte ao abordar a influência das escalas da imagem.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

O artigo apresenta o DSV, um método que acelera o treinamento de DiTs de vídeo em larga escala explorando a esparsidade dinâmica da atenção através de aproximação de baixo posto, kernels personalizados e paralelismo de contexto híbrido, alcançando um aumento de até 3,02 vezes no rendimento de treinamento sem perda de qualidade.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Este artigo propõe um método de marcação d'água robusto e sem necessidade de retreinamento, aplicado durante a inferência de modelos generativos como os de difusão, para garantir a detecção de conteúdo sintético e a identificação do usuário mesmo sob ataques de remoção ou perturbações.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

← Anterior Próximo →