QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

O artigo propõe uma camada de inteligência baseada em IA Agente para o plano de controle de redes 6G, que gerencia de forma autônoma e adaptativa o aprendizado federado, traduzindo objetivos de alto nível em ações otimizadas que consideram condições de rede e capacidades dos dispositivos para garantir baixa latência e alta eficiência.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabalho aprimora o modelo de aprendizado profundo POLISH para reconstrução de imagens de interferometria de rádio, introduzindo estratégias de treinamento em patches e transformações de intensidade não lineares que permitem a descoberta robusta de lentes gravitacionais fortes em grandes campos de visão e alto alcance dinâmico, superando significativamente os métodos tradicionais como o CLEAN.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

O artigo apresenta o Progressive Split-Mamba (PS-Mamba), um novo framework hierárquico de espaço de estados que supera as limitações de topologia e decaimento de informação dos modelos Mamba existentes em imagens, alcançando resultados superiores em tarefas de restauração de imagem através de particionamento geométrico consistente e caminhos de atalho simétricos.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

O artigo apresenta o SAGE, o primeiro modelo de linguagem grande multimodal (MLLM) totalmente integrado para processar nuvens de pontos brutas diretamente, tratando os dados 3D como uma "língua estrangeira" por meio de um tokenizador leve e otimização de preferências, superando assim os métodos baseados em codificadores pré-treinados em eficiência, generalização e robustez.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este artigo propõe uma abordagem de aprendizado de métrica baseada em descritores de ângulos interarticulares invariantes para superar as limitações de dados em reconhecimento de linguagem de sinais, permitindo transferência cruzada entre línguas com apenas alguns exemplos e superando significativamente os métodos baseados em coordenadas.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

O artigo apresenta o TubeMLLM, um modelo fundamental unificado que combina compreensão estruturada e geração controlável para explorar a topologia de anatomias vasculares, superando os métodos existentes em consistência topológica, generalização zero-shot e robustez através de um novo conjunto de dados multimodal e uma arquitetura de atenção compartilhada.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

O artigo apresenta o BridgeDiff, um framework baseado em difusão que supera as limitações dos métodos anteriores ao conectar observações humanas e síntese de roupas planas através de dois módulos complementares, resultando em reconstruções de roupas virtuais com maior qualidade estrutural e fidelidade visual.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

O artigo propõe o módulo Geometric Semantic Decoupling (GSD), uma solução sem parâmetros que elimina dependências de semântica pré-treinada em modelos de visão para forçar a detecção de evidências forenses invariantes, resultando em maior generalização e robustez na identificação de imagens geradas por IA.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs