TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Il paper presenta TrainDeeploy, un framework che abilita il primo addestramento end-to-end di modelli Transformer e CNN su SoC ultra-low-power basati su RISC-V, ottimizzando l'efficienza hardware e riducendo l'uso di memoria attraverso strategie di fine-tuning parametrico come LoRA.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Il documento dimostra che i modelli linguistici possono acquisire subliminalmente le preferenze di un modello "insegnante" (come l'amore per un animale specifico) semplicemente addestrandosi su parafrasi fedeli del suo output, anche quando il contenuto semantico è irrilevante o contraddice esplicitamente tale preferenza, rivelando un rischio critico di trasmissione di bias nei pipeline di generazione dati che non possono essere rilevati tramite ispezione del contenuto.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Il paper presenta EDA, un framework efficiente in termini di parametri e dati che utilizza un'architettura decoppiata, una strategia di rigenerazione dei dati e un meccanismo di selezione dei campioni per adattare rapidamente i modelli bozzetto a modelli target finemente sintonizzati, ripristinando così le prestazioni del decoding speculativo con costi di addestramento ridotti.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong JiWed, 11 Ma🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Il paper introduce BRACE, un algoritmo per i banditi con non conformità che gestisce il trade-off tra il benessere delle raccomandazioni e l'apprendimento dei trattamenti, fornendo intervalli strutturali certificati e identificando politiche ottimali sia per scenari di controllo diretto che mediato, anche in presenza di identificazione debole o eterogeneità.

Nicolás Della PennaWed, 11 Ma🤖 cs.LG

Learning Bayesian and Markov Networks with an Unreliable Oracle

Questo studio analizza l'apprendimento strutturale delle reti di Markov e bayesiane in presenza di un oracolo di indipendenza condizionale inaffidabile, dimostrando che le reti di Markov possono essere identificate nonostante un numero moderatamente esponenziale di errori se il numero di percorsi disgiunti è basso, mentre le reti bayesiane non tollerano alcun errore per una identificazione garantita, fornendo infine algoritmi per i casi in cui la struttura è univocamente identificabile.

Juha Harviainen, Pekka Parviainen, Vidya Sagar SharmaWed, 11 Ma🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Il paper presenta SCDP, una strategia di apprendimento che utilizza modelli di diffusione addestrati su osservazioni parziali per distillare il controllo della locomozione umanoide da dati offline, permettendo a un robot reale di muoversi in modo robusto basandosi esclusivamente sui sensori di bordo senza necessità di stima esplicita dello stato.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin LiWed, 11 Ma🤖 cs.LG

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Questo lavoro dimostra che l'algoritmo Adam converge automaticamente e in modo lineare su una classe specifica di polinomi altamente degeneri, superando le prestazioni di Gradient Descent e Momentum grazie a un meccanismo di disaccoppiamento che amplifica esponenzialmente il tasso di apprendimento efficace, senza richiedere schedulatori esterni.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu ZhangWed, 11 Ma🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Questo lavoro introduce una strategia di clipping dei parametri, derivata teoricamente dalla minimizzazione del limite superiore della divergenza di Rényi, per migliorare il compromesso tra privacy e utilità nei modelli di linguaggio non parametrici basati sul variational information bottleneck, garantendo bound di privacy più stretti e prestazioni superiori rispetto alle basi non vincolate.

Dina El Zein, Shashi Kumar, James HendersonWed, 11 Ma🤖 cs.LG

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

Il paper propone BrainHO, un nuovo approccio che apprende l'organizzazione gerarchica intrinseca delle reti cerebrali tramite un meccanismo di attenzione gerarchica e vincoli di ortogonalità, superando i limiti delle definizioni preesistenti per ottenere diagnosi di disturbi cerebrali più accurate e biomarcatori clinicamente interpretabili.

Jingfeng Tang, Peng Cao, Guangqi Wen, Jinzhu Yang, Xiaoli Liu, Osmar R. ZaianeWed, 11 Ma🤖 cs.LG

No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Questo lavoro analizza empiricamente l'impatto distinto del bias di etichetta e del bias di selezione sulla valutazione e sulla mitigazione dei modelli di classificazione, introducendo un nuovo framework che dimostra come una rappresentazione equa nei dati di test elimini i compromessi tra accuratezza e equità e riveli la dipendenza dell'efficacia delle mitigazioni dal tipo specifico di bias presente.

Magali Legast, Toon Calders, François FoussWed, 11 Ma🤖 cs.LG