cs.CV artigos | Gist.Science

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Este artigo propõe o framework DTI-UIE, uma abordagem de aprimoramento de imagens subaquáticas inspirada em tarefas downstream que, combinando uma rede de dois ramos com atenção orientada a tarefas, uma perda perceptiva específica e um novo conjunto de dados construído automaticamente, supera os métodos tradicionais focados apenas na percepção humana ao otimizar a qualidade das imagens para reconhecimento de objetos e segmentação semântica.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Este artigo propõe a representação de função tensorial contínua fundamentada em operadores neurais (NO-CTR), que supera as limitações dos métodos discretos ao introduzir operadores de modo- $n$ não lineares e contínuos para uma representação mais fiel de dados complexos, demonstrando superioridade em tarefas de completamento de dados multidimensionais em diversos cenários.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

O artigo apresenta o FireRed-OCR, um framework inovador que transforma modelos VLMs gerais em especialistas em OCR estrutural de alta performance através de uma fábrica de dados "Geometria + Semântica" e uma estratégia de treinamento progressivo de três etapas, alcançando resultados state-of-the-art no benchmark OmniDocBench v1.5.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Este trabalho apresenta o Tiny-DroNeRF, um modelo leve de Campos Neurais de Radiância (NeRF) otimizado para microcontroladores de baixo consumo em nano-drones, que utiliza aprendizado federado para superar as restrições de memória e computação, permitindo a reconstrução 3D densa de ambientes com alta eficiência.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Este trabalho apresenta um método de previsão de trajetória de drones baseado exclusivamente em câmeras de eventos, que extrai a velocidade de rotação das hélices dos dados brutos e a integra em um filtro de Kalman consciente de RPM, superando abordagens de aprendizado e filtros tradicionais na previsão de curto e médio prazo sem depender de imagens RGB ou dados de treinamento.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Este artigo propõe uma representação volumétrica 3D de Campo de Junções (3D FoJ), um prior estrutural livre de treinamento e robusto a ruídos que supera métodos clássicos e neurais na reconstrução e remoção de ruído de problemas inversos volumétricos com baixa relação sinal-ruído, como tomografia computadorizada de baixa dose, tomografia eletrônica criogênica e nuvens de pontos de lidar.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Este artigo propõe e avalia uma nova técnica de aumento de dados chamada C2GMA, que utiliza CycleGANs para traduzir imagens visíveis para o domínio não visível e gerar exemplos interpolados de classes mistas, resultando em uma melhoria significativa na precisão da classificação de imagens de Radar de Abertura Sintética (SAR) com dados limitados.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

O artigo apresenta o Dite-HRNet, uma rede leve de alta resolução que utiliza blocos inovadores com convolução dinâmica e modelagem de contexto adaptativo para capturar eficientemente informações multiescala e dependências espaciais de longo alcance, superando redes leves de última geração nas tarefas de estimativa de pose humana nos conjuntos de dados COCO e MPII.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving

O artigo apresenta o CO^3, um método de aprendizado de representação 3D não supervisionado para cenas externas que utiliza dados cooperativos de LiDAR veicular e de infraestrutura, combinando aprendizado contrastivo com previsão de contexto de forma para superar limitações anteriores e alcançar desempenho superior em tarefas de detecção.

Runjian Chen, Yao Mu, Runsen Xu + 5 more2026-03-02💻 cs

A Fault Detection Scheme Utilizing Convolutional Neural Network for PV Solar Panels with High Accuracy

Este artigo propõe um esquema de detecção de falhas para painéis solares fotovoltaicos baseado em uma rede neural convolucional (CNN) treinada, que alcança alta precisão na classificação binária e multiclasse de defeitos, superando modelos anteriores e oferecendo uma solução simples e eficaz para garantir a robustez do sistema.

Maryam Paparimoghadamborazjani, Amin Kazemi2026-03-02🤖 cs.LG

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

Este trabalho aborda o problema da superotimização de recompensa em modelos de difusão ao identificar vieses indutivos e de primazia como causas raiz, propondo o algoritmo TDPO-R que explora o viés indutivo temporal e redefina neurônios ativos do crítico para mitigar esses efeitos e melhorar o alinhamento com preferências humanas.

Ziyi Zhang, Sen Zhang, Yibing Zhan + 3 more2026-03-02🤖 cs.LG

Uni-ISP: Toward Unifying the Learning of ISPs from Multiple Mobile Cameras

O artigo apresenta o Uni-ISP, uma nova abordagem que unifica o aprendizado de processadores de imagem (ISPs) para diversas câmeras móveis através de embeddings específicos do dispositivo e de um esquema de treinamento inovador, resultando em maior precisão, adaptabilidade e novas aplicações, além de disponibilizar o conjunto de dados FiveCam para validação.

Lingen Li, Mingde Yao, Xingyu Meng + 3 more2026-03-02💻 cs

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

O artigo apresenta o R2GenCSR, um novo framework eficiente para geração de relatórios radiológicos que utiliza o Mamba como backbone visual de complexidade linear e recupera informações contextuais do conjunto de treinamento para aprimorar a representação de características e a geração de relatórios médicos de alta qualidade por meio de Modelos de Linguagem de Grande Escala (LLMs).

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

O artigo propõe o Shuffle Mamba, um novo modelo de espaço de estado para fusão de imagens multimodais que elimina vieses de varredura fixa através de uma estratégia de embaralhamento aleatório inspirada em Bayes e de uma inversão teórica, demonstrando desempenho superior em diversas tarefas de fusão.

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Este artigo propõe o primeiro método para o esquecimento de rótulos em Aprendizado Federado Vertical, utilizando um mecanismo de mixup em nível de representação e otimização baseada em gradiente para garantir a privacidade sem revelar dados sensíveis, mantendo a eficiência computacional e a utilidade do modelo.

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

O artigo apresenta o Stereo-Talker, um sistema inovador de síntese de vídeo humano 3D acionado por áudio que gera vídeos realistas com sincronização labial precisa e gestos expressivos, utilizando priores de modelos de linguagem para enriquecer a diversidade dos movimentos e um mecanismo de Mixture-of-Experts guiado por priores para garantir estabilidade e controle contínuo de viewpoint.

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

O artigo propõe o SDPO, um novo quadro de aprendizado por reforço que alinha modelos de difusão de poucos passos a objetivos específicos através de uma otimização baseada em diferenças de recompensa densa e amostragem de trajetória de dupla estado, superando as limitações existentes para gerar imagens de alta resolução com maior eficiência e qualidade.

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

O TREND é um método inovador de aprendizado de representação 3D não supervisionado para percepção LiDAR que utiliza previsão temporal e campos neurais para gerar embeddings 3D ao longo do tempo, superando significativamente os métodos anteriores em tarefas de detecção de objetos.

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

O artigo apresenta o CLAP, um método de pré-treinamento não supervisionado que une aprendizado de representações 3D de imagens e nuvens de pontos através de amostragem de curvatura e protótipos aprendíveis, superando limitações computacionais e alcançando ganhos de desempenho significativos em tarefas de percepção 3D.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

Este artigo apresenta o GenVidBench, o maior conjunto de dados existente para detecção de vídeos gerados por IA, composto por 6,78 milhões de vídeos provenientes de 11 geradores de última geração e estruturado para garantir diversidade e robustez no treinamento de modelos de detecção.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

← Anterior Próximo →