cs.CV artigos | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artigo propõe um framework baseado em transformers para a recuperação de casos de câncer de pele combinando imagens e texto, que alinha representações globais e locais para melhorar a precisão na identificação de lesões clínicas relevantes.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

O artigo propõe o PRLF, um framework de aprendizado de representação progressiva que utiliza um estimador adaptativo de confiabilidade e um módulo de interação progressiva para melhorar a análise de sentimentos multimodal em cenários com modalidades incompletas, superando os métodos atuais em robustez e generalização.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Este estudo apresenta um framework automatizado baseado em Transformers (SegFormer) para segmentação multi-regional de imagens HR-pQCT, demonstrando que a análise radiomica de tecidos moles supera os modelos baseados apenas em osso na detecção de osteoporose.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

O artigo apresenta o EQ-VMamba, a primeira arquitetura visual baseada em Mamba que incorpora equivariância à rotação através de uma estratégia de varredura cruzada e blocos de grupo especializados, demonstrando superioridade em robustez e eficiência de parâmetros em diversas tarefas de visão computacional.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

O artigo propõe uma camada de inteligência baseada em IA Agente para o plano de controle de redes 6G, que gerencia de forma autônoma e adaptativa o aprendizado federado, traduzindo objetivos de alto nível em ações otimizadas que consideram condições de rede e capacidades dos dispositivos para garantir baixa latência e alta eficiência.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

O artigo apresenta a RTFDNet, uma arquitetura unificada de três ramos que integra fusão sinérgica e regularização de desacoplamento para realizar segmentação semântica RGB-T robusta e eficiente, superando a degradação de desempenho em cenários com sinais de sensores parciais ou ausentes.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabalho aprimora o modelo de aprendizado profundo POLISH para reconstrução de imagens de interferometria de rádio, introduzindo estratégias de treinamento em patches e transformações de intensidade não lineares que permitem a descoberta robusta de lentes gravitacionais fortes em grandes campos de visão e alto alcance dinâmico, superando significativamente os métodos tradicionais como o CLEAN.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

O artigo apresenta o Progressive Split-Mamba (PS-Mamba), um novo framework hierárquico de espaço de estados que supera as limitações de topologia e decaimento de informação dos modelos Mamba existentes em imagens, alcançando resultados superiores em tarefas de restauração de imagem através de particionamento geométrico consistente e caminhos de atalho simétricos.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

O artigo apresenta o SAGE, o primeiro modelo de linguagem grande multimodal (MLLM) totalmente integrado para processar nuvens de pontos brutas diretamente, tratando os dados 3D como uma "língua estrangeira" por meio de um tokenizador leve e otimização de preferências, superando assim os métodos baseados em codificadores pré-treinados em eficiência, generalização e robustez.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

O artigo apresenta o MM-Zero, um framework baseado em aprendizado por reforço que permite a auto-evolução de modelos de linguagem e visão (VLMs) a partir de zero dados, utilizando três papéis especializados (Propositor, Codificador e Solucionador) para gerar conceitos visuais, renderizá-los via código e realizar raciocínio multimodal sem necessidade de dados seminais.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este artigo propõe uma abordagem de aprendizado de métrica baseada em descritores de ângulos interarticulares invariantes para superar as limitações de dados em reconhecimento de linguagem de sinais, permitindo transferência cruzada entre línguas com apenas alguns exemplos e superando significativamente os métodos baseados em coordenadas.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

O artigo apresenta o TubeMLLM, um modelo fundamental unificado que combina compreensão estruturada e geração controlável para explorar a topologia de anatomias vasculares, superando os métodos existentes em consistência topológica, generalização zero-shot e robustez através de um novo conjunto de dados multimodal e uma arquitetura de atenção compartilhada.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Este artigo propõe uma nova função de perda para treinar uma Rede Neural Convolucional Distribuída (DisCNN) que reconhece apenas uma classe positiva específica, mapeando amostras positivas para um conjunto compacto e negativas para a origem, o que permite uma arquitetura leve com excelente generalização e detecção eficaz de objetos em fundos complexos.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

O artigo apresenta o UniField, um framework unificado que aprimora imagens de ressonância magnética (MRI) ao integrar modelos fundacionais 3D e um mecanismo de retificação espectral consciente do campo magnético, superando a escassez de dados com um novo conjunto de dados emparelhado de grande escala e alcançando desempenho superior ao estado da arte.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

O artigo apresenta o HelixTrack, um método totalmente baseado em eventos que rastreia objetos semelhantes a hélices e estima sua rotação por minuto (RPM) com latência de microssegundos, superando as limitações de rastreadores convencionais e introduzindo o novo conjunto de dados TQE para validação.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

O artigo apresenta o BridgeDiff, um framework baseado em difusão que supera as limitações dos métodos anteriores ao conectar observações humanas e síntese de roupas planas através de dois módulos complementares, resultando em reconstruções de roupas virtuais com maior qualidade estrutural e fidelidade visual.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

O artigo apresenta o RAE-NWM, um modelo de mundo de navegação que opera no espaço de representações visuais densas do DINOv2 em vez de espaços latentes comprimidos, utilizando um Transformer de Difusão Condicional para melhorar a estabilidade estrutural e a precisão das ações na navegação visual.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← Anterior Próximo →