Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artigo propõe o framework DTI-UIE, uma abordagem de aprimoramento de imagens subaquáticas inspirada em tarefas downstream que, combinando uma rede de dois ramos com atenção orientada a tarefas, uma perda perceptiva específica e um novo conjunto de dados construído automaticamente, supera os métodos tradicionais focados apenas na percepção humana ao otimizar a qualidade das imagens para reconhecimento de objetos e segmentação semântica.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artigo propõe a representação de função tensorial contínua fundamentada em operadores neurais (NO-CTR), que supera as limitações dos métodos discretos ao introduzir operadores de modo-nn não lineares e contínuos para uma representação mais fiel de dados complexos, demonstrando superioridade em tarefas de completamento de dados multidimensionais em diversos cenários.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabalho apresenta um método de previsão de trajetória de drones baseado exclusivamente em câmeras de eventos, que extrai a velocidade de rotação das hélices dos dados brutos e a integra em um filtro de Kalman consciente de RPM, superando abordagens de aprendizado e filtros tradicionais na previsão de curto e médio prazo sem depender de imagens RGB ou dados de treinamento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

O artigo apresenta o Dite-HRNet, uma rede leve de alta resolução que utiliza blocos inovadores com convolução dinâmica e modelagem de contexto adaptativo para capturar eficientemente informações multiescala e dependências espaciais de longo alcance, superando redes leves de última geração nas tarefas de estimativa de pose humana nos conjuntos de dados COCO e MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Este artigo propõe um esquema de detecção de falhas para painéis solares fotovoltaicos baseado em uma rede neural convolucional (CNN) treinada, que alcança alta precisão na classificação binária e multiclasse de defeitos, superando modelos anteriores e oferecendo uma solução simples e eficaz para garantir a robustez do sistema.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabalho aborda o problema da superotimização de recompensa em modelos de difusão ao identificar vieses indutivos e de primazia como causas raiz, propondo o algoritmo TDPO-R que explora o viés indutivo temporal e redefina neurônios ativos do crítico para mitigar esses efeitos e melhorar o alinhamento com preferências humanas.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

O artigo apresenta o Uni-ISP, uma nova abordagem que unifica o aprendizado de processadores de imagem (ISPs) para diversas câmeras móveis através de embeddings específicos do dispositivo e de um esquema de treinamento inovador, resultando em maior precisão, adaptabilidade e novas aplicações, além de disponibilizar o conjunto de dados FiveCam para validação.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

O artigo apresenta o R2GenCSR, um novo framework eficiente para geração de relatórios radiológicos que utiliza o Mamba como backbone visual de complexidade linear e recupera informações contextuais do conjunto de treinamento para aprimorar a representação de características e a geração de relatórios médicos de alta qualidade por meio de Modelos de Linguagem de Grande Escala (LLMs).

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs