Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Questo studio presenta un framework di tracciamento guidato da visione per veicoli di superficie autonomi (USV) in ambienti marittimi complessi, che attraverso un benchmark di sette algoritmi avanzati e test in simulazione e in mare reale, identifica SeqTrack come il tracciatore più efficace in condizioni avverse e il controllore LQR come la soluzione di controllo più robusta per garantire una tracciatura stabile.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Il paper introduce VOILA, un benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di comprendere relazioni percettive e di ragionamento analogico, rivelando che le attuali architetture faticano significativamente in questi compiti rispetto alle prestazioni umane, sebbene strategie di prompting a più passaggi possano migliorare i risultati.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Il paper presenta PD-VLA, un innovativo framework di decodifica parallela che accelera l'inferenza dei modelli Vision-Language-Action integrati con l'azione a blocchi (action chunking) senza richiedere modifiche architetturali o riaddestramento, garantendo al contempo prestazioni competitive e un aumento significativo della frequenza di esecuzione nei robot manipolatori.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through pp-Laplace Analysis: Estimators, Bounds and Applications

Questo lavoro propone un metodo basato sull'analisi dell'operatore p-Laplaciano stimato tramite le funzioni di punteggio dei modelli di diffusione per identificare il fenomeno della memorizzazione dei dati di addestramento, fornendo sia stime numeriche efficaci che limiti teorici di errore validi anche per modelli generativi testo-immagine.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Questo studio dimostra che un'architettura ibrida basata su transformer preaddestrato (SMIT), ottimizzata con un apprendimento curricolare bilanciato, raggiunge una segmentazione accurata delle sottostutture cardiache su TC con contrasto e senza contrasto utilizzando il 64% in meno di dati annotati rispetto a un modello "oracle", superando in robustezza le soluzioni tradizionali come nnU-Net e TotalSegmentator per la pianificazione della radioterapia.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess