Rethinking Cross-Modal Fine-Tuning: Optimizing the Interaction between Feature Alignment and Target Fitting

Questo articolo presenta un quadro teorico che stabilisce un limite di generalizzazione per l'adattamento incrociato di modalità, introducendo il concetto di distorsione feature-etichetta per ottimizzare l'interazione tra allineamento delle caratteristiche e adattamento al target, ottenendo così prestazioni superiori rispetto agli stati dell'arte.

Trong Khiem Tran, Manh Cuong Dao, Phi Le Nguyen + 2 more2026-02-27🤖 cs.AI

Learning Credal Ensembles via Distributionally Robust Optimization

Il paper propone CreDRO, un metodo che apprende ensemble credali ottimizzando la robustezza distribuzionale per catturare l'incertezza epistemica derivante da potenziali spostamenti di distribuzione, superando le limitazioni delle tecniche basate sulla sola casualità dell'inizializzazione e ottenendo prestazioni superiori in compiti come la rilevazione di dati fuori distribuzione e la classificazione selettiva in ambito medico.

Kaizheng Wang, Ghifari Adam Faza, Fabio Cuzzolin + 3 more2026-02-27📊 stat

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Questo lavoro introduce il framework Generalized On-Policy Distillation (G-OPD), che estende la distillazione on-policy standard attraverso un fattore di scaling del reward e un modello di riferimento flessibile, dimostrando che l'estrapolazione del reward (ExOPD) e la correzione del reward basata sul modello pre-RL del docente permettono di superare le prestazioni dei modelli insegnanti in compiti di ragionamento matematico e generazione di codice.

Wenkai Yang, Weijie Liu, Ruobing Xie + 3 more2026-02-27💬 cs.CL

Benchmarking IoT Time-Series AD with Event-Level Augmentations

Questo studio introduce un protocollo di valutazione basato su eventi e aumentazioni realistiche per il rilevamento di anomalie nelle serie temporali IoT, dimostrando attraverso il benchmark di 14 modelli su dataset pubblici e industriali che non esiste un vincitore universale e che le prestazioni variano significativamente in base al tipo di perturbazione e all'architettura del modello.

Dmitry Zhevnenko, Ilya Makarov, Aleksandr Kovalenko + 6 more2026-02-27🤖 cs.LG