3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

O artigo apresenta o Dite-HRNet, uma rede leve de alta resolução que utiliza blocos inovadores com convolução dinâmica e modelagem de contexto adaptativo para capturar eficientemente informações multiescala e dependências espaciais de longo alcance, superando redes leves de última geração nas tarefas de estimativa de pose humana nos conjuntos de dados COCO e MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Este artigo propõe um esquema de detecção de falhas para painéis solares fotovoltaicos baseado em uma rede neural convolucional (CNN) treinada, que alcança alta precisão na classificação binária e multiclasse de defeitos, superando modelos anteriores e oferecendo uma solução simples e eficaz para garantir a robustez do sistema.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabalho aborda o problema da superotimização de recompensa em modelos de difusão ao identificar vieses indutivos e de primazia como causas raiz, propondo o algoritmo TDPO-R que explora o viés indutivo temporal e redefina neurônios ativos do crítico para mitigar esses efeitos e melhorar o alinhamento com preferências humanas.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

O artigo apresenta o Uni-ISP, uma nova abordagem que unifica o aprendizado de processadores de imagem (ISPs) para diversas câmeras móveis através de embeddings específicos do dispositivo e de um esquema de treinamento inovador, resultando em maior precisão, adaptabilidade e novas aplicações, além de disponibilizar o conjunto de dados FiveCam para validação.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

O artigo apresenta o R2GenCSR, um novo framework eficiente para geração de relatórios radiológicos que utiliza o Mamba como backbone visual de complexidade linear e recupera informações contextuais do conjunto de treinamento para aprimorar a representação de características e a geração de relatórios médicos de alta qualidade por meio de Modelos de Linguagem de Grande Escala (LLMs).

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

O artigo apresenta o JiSAM, um método plug-and-play que combina aumento por jitter, um backbone consciente do domínio e alinhamento setorial baseado em memória para permitir que modelos de percepção de direção autônoma atinjam desempenho comparável ao treinado com todos os dados reais utilizando apenas 2,5% de dados reais rotulados e dados sintéticos, superando assim o custo de anotação e o problema de casos extremos.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

O artigo apresenta o ARPG, um modelo de geração de imagens autoregressivo inovador que utiliza um mecanismo de decodificação paralela aleatória e um quadro de decodificação desacoplado para superar as limitações de eficiência e generalização dos métodos convencionais, permitindo inferência rápida, redução de memória e capacidades zero-shot como preenchimento e expansão de resolução.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs