POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabalho aprimora o modelo de aprendizado profundo POLISH para reconstrução de imagens de interferometria de rádio, introduzindo estratégias de treinamento em patches e transformações de intensidade não lineares que permitem a descoberta robusta de lentes gravitacionais fortes em grandes campos de visão e alto alcance dinâmico, superando significativamente os métodos tradicionais como o CLEAN.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

O artigo apresenta o Progressive Split-Mamba (PS-Mamba), um novo framework hierárquico de espaço de estados que supera as limitações de topologia e decaimento de informação dos modelos Mamba existentes em imagens, alcançando resultados superiores em tarefas de restauração de imagem através de particionamento geométrico consistente e caminhos de atalho simétricos.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

O artigo apresenta o SAGE, o primeiro modelo de linguagem grande multimodal (MLLM) totalmente integrado para processar nuvens de pontos brutas diretamente, tratando os dados 3D como uma "língua estrangeira" por meio de um tokenizador leve e otimização de preferências, superando assim os métodos baseados em codificadores pré-treinados em eficiência, generalização e robustez.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este artigo propõe uma abordagem de aprendizado de métrica baseada em descritores de ângulos interarticulares invariantes para superar as limitações de dados em reconhecimento de linguagem de sinais, permitindo transferência cruzada entre línguas com apenas alguns exemplos e superando significativamente os métodos baseados em coordenadas.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

O artigo apresenta o TubeMLLM, um modelo fundamental unificado que combina compreensão estruturada e geração controlável para explorar a topologia de anatomias vasculares, superando os métodos existentes em consistência topológica, generalização zero-shot e robustez através de um novo conjunto de dados multimodal e uma arquitetura de atenção compartilhada.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

O artigo apresenta o BridgeDiff, um framework baseado em difusão que supera as limitações dos métodos anteriores ao conectar observações humanas e síntese de roupas planas através de dois módulos complementares, resultando em reconstruções de roupas virtuais com maior qualidade estrutural e fidelidade visual.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

O artigo propõe o módulo Geometric Semantic Decoupling (GSD), uma solução sem parâmetros que elimina dependências de semântica pré-treinada em modelos de visão para forçar a detecção de evidências forenses invariantes, resultando em maior generalização e robustez na identificação de imagens geradas por IA.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudo apresenta uma abordagem multimodelo baseada em redes neurais pré-treinadas e personalizadas, combinando técnicas avançadas de visão computacional e aprendizado profundo para aprimorar a detecção de sinais de trânsito, veículos e faixas, bem como o clonagem de comportamento, visando aumentar a robustez e confiabilidade dos sistemas de direção autônoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

O artigo propõe o framework DiP, uma nova abordagem para aprendizado de representação em grafos multimodais que utiliza nós pseudo-específicos e caminhos de informação dinâmicos para alcançar propagação de mensagens adaptativa, expressiva e esparsa com complexidade linear, superando métodos existentes em tarefas como previsão de links e classificação de nós.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este artigo apresenta um novo quadro de trabalho para navegação visão-linguagem que utiliza vídeos de tours de ambientes reais da web e representações geométricas implícitas para superar as limitações de escalabilidade e diversidade dos simuladores, estabelecendo novos recordes de desempenho e permitindo agentes de navegação zero-shot mais robustos.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

O artigo apresenta o ForgeDreamer, um novo framework que supera as limitações atuais na geração de modelos 3D industriais a partir de texto ao combinar um mecanismo de ensemble Multi-Expert LoRA para evitar interferência de conhecimento entre categorias e uma abordagem de hipergrafo multivista para capturar dependências estruturais de alta ordem essenciais para a precisão na manufatura.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

O artigo apresenta o SVOR, um novo framework robusto que supera os desafios de remoção de objetos em vídeos sob condições imperfeitas, como sombras e máscaras defeituosas, através de três inovações principais: a estratégia MUSE para fusão de máscaras, o cabeçote de segmentação DA-Seg e um treinamento em duas etapas com currículo, alcançando resultados state-of-the-art e viabilizando aplicações no mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs