Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

Este artigo apresenta o Prompt-Driven Noise Generation (PNG), um novo framework baseado em difusão que sintetiza imagens ruidosas realistas em espaço sRGB aprendendo representações de ruído a partir de prompts de alta dimensão, eliminando a dependência de metadados de câmera e melhorando a generalização para a remoção de ruído em cenários do mundo real.

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Este estudo apresenta um modelo interpretável que alcança 80,4% de precisão na antecipação de oito tipos de arremessos de beisebol a partir de sequências de pose 3D em broadcast, revelando que a mecânica do tronco e do pulso são os principais preditores e estabelecendo um limite empírico de aproximadamente 80% para a distinção de variantes baseadas apenas no movimento corporal.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Este trabalho propõe um novo framework de duas etapas para a geração automática de relatórios de tomografia computadorizada, que utiliza aprendizado contrastivo imagem-texto orientado por observações estruturais e uma fila negativa dinâmica para capturar correspondências semânticas precisas entre estruturas anatômicas e descrições clínicas, alcançando desempenho superior ao estado da arte em eficiência clínica.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabalho propõe o FedMEPD, um novo framework de aprendizado federado que utiliza codificadores específicos por modalidade e um decodificador de fusão parcialmente personalizado, permitindo que clientes com modalidades incompletas compensem a perda de informação via atenção cruzada e obtenham modelos adaptados às suas características locais, superando assim os desafios de heterogeneidade intermodal e personalização em segmentação de tumores cerebrais.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabalho propõe um método de otimização de textura adversarial 3D consistente com a viewpoint, utilizando renderização diferenciável e estratégias de aprendizado como EOT e um currículo de refinamento, para explorar e explorar vulnerabilidades em políticas visuomotoras de robôs sob condições de viewpoint dinâmico, superando as limitações dos ataques de patches 2D tradicionais.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

O artigo apresenta o VisionPangu, um assistente multimodal compacto de 1,7 bilhão de parâmetros que, ao combinar um codificador de visão derivado do InternVL com o modelo de linguagem OpenPangu e utilizar descrições humanas densas do conjunto de dados DOCCI, alcança desempenho competitivo na geração de legendas detalhadas e semanticamente coerentes sem depender de escalas de modelo agressivas.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

O artigo apresenta o BiEvLight, um framework de aprendizado em dois níveis que otimiza colaborativamente a remoção de ruído em eventos e o aprimoramento de imagens em baixa luminosidade, tratando a denoising como um problema de otimização guiado pela tarefa de aprimoramento para superar o acoplamento de ruído e superar os métodos mais avançados.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs