TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Le papier présente TrainDeeploy, un cadre accéléré par le matériel permettant le premier fine-tuning complet et efficace en termes de paramètres de modèles CNN et Transformer directement sur des SoCs ultra-basse consommation de type RISC-V, tout en préservant la confidentialité des données et en réduisant significativement l'utilisation mémoire.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Cette étude révèle que les modèles de langage peuvent acquérir subrepticement les préférences d'un modèle générateur lors de l'entraînement sur des paraphrases fidèles, même lorsque le contenu sémantique est sans rapport ou contredit explicitement ces préférences, ce qui compromet l'efficacité des filtres basés sur le contenu dans les pipelines d'auto-apprentissage.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Ce papier présente EDA, un cadre efficace et économe en paramètres et en données qui restaure les performances du décodage spéculatif sur des modèles cibles adaptés à des domaines spécifiques en utilisant une architecture découplée, une régénération de données et une sélection d'échantillons, évitant ainsi le coût d'un réentraînement complet.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong JiWed, 11 Ma🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

Cet article étudie l'apprentissage de la structure des réseaux de Markov et bayésiens en présence d'un oracle d'indépendance conditionnelle peu fiable, démontrant que l'identifiabilité unique est possible pour les réseaux de Markov malgré un nombre exponentiel d'erreurs sous certaines conditions, mais impossible pour les réseaux bayésiens même avec des paramètres graphiques bornés, tout en proposant des algorithmes pour les cas identifiables.

Juha Harviainen, Pekka Parviainen, Vidya Sagar SharmaWed, 11 Ma🤖 cs.LG

An Optimal Control Approach To Transformer Training

Cet article propose une approche de contrôle optimal rigoureuse pour l'entraînement des Transformers, modélisant l'architecture comme un système de particules contrôlé dont la dynamique est transformée en un processus de décision markovien complet, permettant ainsi d'établir l'existence de politiques globalement optimales et de concevoir une procédure d'entraînement quantifiée robuste sans recourir à la descente de gradient.

Ka\u{g}an Akman, Naci Saldı, Serdar YükselWed, 11 Ma🤖 cs.LG

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Cette étude démontre que l'algorithme Adam converge automatiquement et linéairement sur une classe de polynômes hautement dégénérés grâce à un mécanisme de découplage qui amplifie le taux d'apprentissage, surpassant ainsi la convergence sous-linéaire du Gradient Descent et du Momentum sans nécessiter de planificateurs externes.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu ZhangWed, 11 Ma🤖 cs.LG

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Cet article propose un cadre unifié pour les factorisations de matrices non négatives (NMF) classique et convexe sous des hypothèses de bruit Tweedie et binomiales négatives, en dérivant des règles de mise à jour multiplicatives via des algorithmes MM et en démontrant leur efficacité supérieure sur des données réelles grâce à une implémentation logicielle disponible.

Elisabeth Sommer James, Asger Hobolth, Marta PelizzolaWed, 11 Ma🤖 cs.LG

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

Ce papier propose BrainHO, une méthode novatrice qui apprend l'organisation hiérarchique intrinsèque des réseaux cérébraux à partir de données IRMf pour améliorer le diagnostic des troubles neurologiques et identifier des biomarqueurs interprétables, surpassant ainsi les approches traditionnelles basées sur des sous-réseaux prédéfinis.

Jingfeng Tang, Peng Cao, Guangqi Wen, Jinzhu Yang, Xiaoli Liu, Osmar R. ZaianeWed, 11 Ma🤖 cs.LG

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Le papier présente FreqCycle, un cadre novateur de prévision de séries temporelles qui intègre l'analyse multi-échelle en combinant un module de prévision cyclique pour les basses fréquences et un module d'apprentissage de motifs fréquentiels segmentés pour les moyennes et hautes fréquences, tout en proposant une extension hiérarchique (MFreqCycle) pour résoudre les défis des périodicités couplées et des longues fenêtres d'observation.

Boya Zhang, Shuaijie Yin, Huiwen Zhu, Xing HeWed, 11 Ma🤖 cs.LG

No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Cette étude analyse empiriquement l'impact distinct des biais d'étiquetage et de sélection sur l'évaluation et la performance des modèles de classification, démontrant qu'une représentation équitable dans les données de test révèle l'absence de compromis entre équité et précision tout en soulignant la nécessité d'adapter les méthodes d'atténuation au type de biais présent.

Magali Legast, Toon Calders, François FoussWed, 11 Ma🤖 cs.LG