StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Il paper introduce StructSAM, un framework di fusione e recupero dei token che preserva struttura e spettro per ottimizzare i Segment Anything Models (SAM) riducendo significativamente i costi computazionali senza compromettere la precisione dei contorni nelle applicazioni naturali e mediche.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Questo articolo presenta un framework leggero basato su gemello digitale per il tracciamento dei veicoli e la previsione delle collisioni, progettato per l'implementazione su dispositivi edge che utilizza solo il rilevamento degli oggetti e mappe di percorso offline per raggiungere un'accuratezza dell'88% con un basso costo computazionale.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Il paper presenta la AgrI Challenge, una competizione incentrata sui dati che introduce la validazione cross-team per valutare la generalizzazione dei modelli di visione artificiale agricola, dimostrando che l'addestramento collaborativo su dataset raccolti indipendentemente riduce drasticamente il divario di prestazione rispetto all'addestramento su singola fonte.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Questo studio colma una lacuna nella diagnostica dentale digitale proponendo un nuovo approccio per generare didascalie specifiche per singoli denti tramite modelli visione-linguaggio, superando i limiti dei dataset esistenti che si concentrano su immagini dell'intera bocca o su patologie isolate.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Il paper presenta UnSCAR, un nuovo paradigma di ripristino delle immagini universale che, grazie a un'architettura a miscela di esperti multi-ramo, risolve i problemi di instabilità e dimenticanza delle conoscenze nell'apprendimento congiunto, consentendo un adattamento scalabile, controllabile e robusto a oltre sedici degradazioni e a domini non visti.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Il paper presenta "Data Agent", un framework end-to-end che formula la selezione dinamica dei dati come un problema di decisione sequenziale guidato da un agente che impara una politica di selezione adattiva, accelerando significativamente l'addestramento dei modelli su diverse architetture e dataset senza comprometterne le prestazioni.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Il paper introduce RPG-SAM, un nuovo framework di segmentazione polipi one-shot senza addestramento che risolve l'eterogeneità regionale e di risposta attraverso l'estrazione di prototipi pesati per affidabilità, la selezione adattiva geometrica delle soglie e un ciclo di raffinamento iterativo, ottenendo un miglioramento del 5,56% di mIoU sul dataset Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Il paper presenta Med-Evo, un innovativo framework di auto-evoluzione per modelli linguistici multimodali medici che, sfruttando l'apprendimento per rinforzo senza etichette tramite una strategia di pseudo-etichettatura guidata dalle caratteristiche e un sistema di ricompensa ibrido, migliora le prestazioni del modello su dati di test non annotati senza richiedere ulteriori dati etichettati.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Il paper presenta SLNet, una rete di riconoscimento per nuvole di punti 3D estremamente leggera e adattiva geometricamente che, grazie a componenti innovativi come NAPE e GMU, raggiunge prestazioni competitive su diversi benchmark con un numero di parametri e un costo computazionale drasticamente inferiori rispetto agli stati dell'arte.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG