Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artigo propõe um framework baseado em transformers para a recuperação de casos de câncer de pele combinando imagens e texto, que alinha representações globais e locais para melhorar a precisão na identificação de lesões clínicas relevantes.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

O artigo propõe uma camada de inteligência baseada em IA Agente para o plano de controle de redes 6G, que gerencia de forma autônoma e adaptativa o aprendizado federado, traduzindo objetivos de alto nível em ações otimizadas que consideram condições de rede e capacidades dos dispositivos para garantir baixa latência e alta eficiência.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabalho aprimora o modelo de aprendizado profundo POLISH para reconstrução de imagens de interferometria de rádio, introduzindo estratégias de treinamento em patches e transformações de intensidade não lineares que permitem a descoberta robusta de lentes gravitacionais fortes em grandes campos de visão e alto alcance dinâmico, superando significativamente os métodos tradicionais como o CLEAN.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

O artigo apresenta o Progressive Split-Mamba (PS-Mamba), um novo framework hierárquico de espaço de estados que supera as limitações de topologia e decaimento de informação dos modelos Mamba existentes em imagens, alcançando resultados superiores em tarefas de restauração de imagem através de particionamento geométrico consistente e caminhos de atalho simétricos.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

O artigo apresenta o SAGE, o primeiro modelo de linguagem grande multimodal (MLLM) totalmente integrado para processar nuvens de pontos brutas diretamente, tratando os dados 3D como uma "língua estrangeira" por meio de um tokenizador leve e otimização de preferências, superando assim os métodos baseados em codificadores pré-treinados em eficiência, generalização e robustez.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este artigo propõe uma abordagem de aprendizado de métrica baseada em descritores de ângulos interarticulares invariantes para superar as limitações de dados em reconhecimento de linguagem de sinais, permitindo transferência cruzada entre línguas com apenas alguns exemplos e superando significativamente os métodos baseados em coordenadas.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

O artigo apresenta o TubeMLLM, um modelo fundamental unificado que combina compreensão estruturada e geração controlável para explorar a topologia de anatomias vasculares, superando os métodos existentes em consistência topológica, generalização zero-shot e robustez através de um novo conjunto de dados multimodal e uma arquitetura de atenção compartilhada.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

O artigo apresenta o BridgeDiff, um framework baseado em difusão que supera as limitações dos métodos anteriores ao conectar observações humanas e síntese de roupas planas através de dois módulos complementares, resultando em reconstruções de roupas virtuais com maior qualidade estrutural e fidelidade visual.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI