Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Il documento propone un sistema di Intelligenza Artificiale Agente come strato di controllo per le reti 6G che gestisce l'apprendimento federato trasformando gli obiettivi di alto livello in azioni adattive, ottimizzando la selezione dei client, l'allocazione delle risorse e la pianificazione in base alle condizioni di rete e alle capacità dei dispositivi.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Questo lavoro estende il framework POLISH per la ricostruzione di immagini interferometriche radio, introducendo strategie di addestramento a patch e trasformazioni di intensità non lineari che permettono di gestire campi visivi ampi e alti rapporti dinamici, migliorando significativamente la scoperta di lenti gravitazionali forti nei dati simulati del DSA.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Il paper presenta SAGE, il primo modello linguistico grande multimodale end-to-end che elabora direttamente nuvole di punti grezze trattandole come un "linguaggio straniero" tramite un tokenizzatore 3D leggero e una strategia di ottimizzazione delle preferenze, superando i metodi basati su encoder pre-addestrati in termini di efficienza computazionale, allineamento semantico e robustezza.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Il paper presenta MM-Zero, il primo framework basato sul reinforcement learning che permette l'auto-evoluzione a partire da zero dati per i modelli visione-linguaggio, introducendo un innovativo sistema multi-ruolo (Propositore, Programmatore e Risolutore) che genera concetti visivi astratti, li traduce in codice eseguibile e li utilizza per il ragionamento multimodale senza necessità di dati iniziali.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Questo articolo propone un framework di apprendimento metrico basato su descrittori geometrici invarianti (angoli inter-articolari) derivati da punti chiave statici delle mani, che supera i limiti delle rappresentazioni coordinate tradizionali consentendo un trasferimento cross-linguistico efficace nel riconoscimento della lingua dei segni con pochi esempi.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Il paper presenta TubeMLLM, un modello fondazionale multimodale che integra conoscenze topologiche tramite prompt testuali e un'architettura condivisa per migliorare la percezione e la generazione coerente di anatomie vascolari, superando gli attuali limiti di consistenza topologica e dimostrando prestazioni all'avanguardia in compiti zero-shot su diverse modalità di imaging medico.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Questo articolo propone una nuova funzione di perdita per le reti neurali convoluzionali distribuite (DisCNN) che, mappando i campioni positivi in uno spazio compatto e quelli negativi nell'origine, estrae esclusivamente le caratteristiche della classe positiva, garantendo un'architettura leggera, un'eccellente generalizzazione su dati non visti e una rilevazione efficace degli oggetti in contesti complessi.

Liang Sun2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Il paper presenta BridgeDiff, un framework basato su diffusione che supera le limitazioni dei metodi precedenti per la sintesi di indumenti piatti partendo da osservazioni umane, integrando moduli specifici per collegare l'aspetto globale e le strutture piatte e ottenendo così risultati all'avanguardia nella ricostruzione di indumenti virtuali.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Questo studio presenta un approccio multi-modello basato su deep learning che integra reti neurali pre-addestrate e personalizzate per migliorare la rilevazione di segnali stradali, veicoli e corsie, nonché il clonaggio comportamentale, al fine di incrementare la robustezza e l'affidabilità dei veicoli autonomi.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs