Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Questo studio presenta il primo framework automatizzato basato su trasformatori (SegFormer) per la segmentazione multi-regione di immagini HR-pQCT, dimostrando che l'estrazione di caratteristiche radiomiche dai tessuti molli, piuttosto che dalle sole strutture ossee, migliora significativamente l'accuratezza nella classificazione dell'osteoporosi.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Il documento propone un sistema di Intelligenza Artificiale Agente come strato di controllo per le reti 6G che gestisce l'apprendimento federato trasformando gli obiettivi di alto livello in azioni adattive, ottimizzando la selezione dei client, l'allocazione delle risorse e la pianificazione in base alle condizioni di rete e alle capacità dei dispositivi.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Questo lavoro estende il framework POLISH per la ricostruzione di immagini interferometriche radio, introducendo strategie di addestramento a patch e trasformazioni di intensità non lineari che permettono di gestire campi visivi ampi e alti rapporti dinamici, migliorando significativamente la scoperta di lenti gravitazionali forti nei dati simulati del DSA.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Il paper presenta SAGE, il primo modello linguistico grande multimodale end-to-end che elabora direttamente nuvole di punti grezze trattandole come un "linguaggio straniero" tramite un tokenizzatore 3D leggero e una strategia di ottimizzazione delle preferenze, superando i metodi basati su encoder pre-addestrati in termini di efficienza computazionale, allineamento semantico e robustezza.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Il paper presenta MM-Zero, il primo framework basato sul reinforcement learning che permette l'auto-evoluzione a partire da zero dati per i modelli visione-linguaggio, introducendo un innovativo sistema multi-ruolo (Propositore, Programmatore e Risolutore) che genera concetti visivi astratti, li traduce in codice eseguibile e li utilizza per il ragionamento multimodale senza necessità di dati iniziali.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Questo articolo propone un framework di apprendimento metrico basato su descrittori geometrici invarianti (angoli inter-articolari) derivati da punti chiave statici delle mani, che supera i limiti delle rappresentazioni coordinate tradizionali consentendo un trasferimento cross-linguistico efficace nel riconoscimento della lingua dei segni con pochi esempi.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Il paper presenta TubeMLLM, un modello fondazionale multimodale che integra conoscenze topologiche tramite prompt testuali e un'architettura condivisa per migliorare la percezione e la generazione coerente di anatomie vascolari, superando gli attuali limiti di consistenza topologica e dimostrando prestazioni all'avanguardia in compiti zero-shot su diverse modalità di imaging medico.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Questo articolo propone una nuova funzione di perdita per le reti neurali convoluzionali distribuite (DisCNN) che, mappando i campioni positivi in uno spazio compatto e quelli negativi nell'origine, estrae esclusivamente le caratteristiche della classe positiva, garantendo un'architettura leggera, un'eccellente generalizzazione su dati non visti e una rilevazione efficace degli oggetti in contesti complessi.

Liang SunWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Il paper presenta BridgeDiff, un framework basato su diffusione che supera le limitazioni dei metodi precedenti per la sintesi di indumenti piatti partendo da osservazioni umane, integrando moduli specifici per collegare l'aspetto globale e le strutture piatte e ottenendo così risultati all'avanguardia nella ricostruzione di indumenti virtuali.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI