cs.LG articles | Gist.Science

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Ce papier présente ZorBA, un cadre de fine-tuning fédéré pour les grands modèles de langage qui utilise l'optimisation d'ordre zéro et une activation hétérogène de blocs pour réduire significativement l'usage de la VRAM et les coûts de communication tout en accélérant la convergence.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Cet article propose ASFL, un cadre d'apprentissage fédéré fractionné adaptatif qui optimise conjointement la répartition du modèle et l'allocation des ressources pour réduire considérablement la latence et la consommation d'énergie tout en accélérant la convergence.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Le papier propose CogGen, une approche de génération profonde entièrement non supervisée pour la reconstruction d'IRM échantillonnée de manière compressive qui améliore la fidélité et la convergence en régulant la charge cognitive via un apprentissage par curriculum qui hiérarchise progressivement la difficulté des données d'entraînement.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

Explainable Regime Aware Investing

Ce papier présente un cadre d'investissement explicable et adaptatif basé sur un modèle de Markov caché de Wasserstein qui, en identifiant dynamiquement les régimes de marché, permet d'optimiser la construction de portefeuille avec des performances ajustées au risque supérieures et une réduction significative des pertes par rapport aux stratégies de référence.

Amine Boukardagha2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Ce papier présente AMV-L, un cadre de gestion de mémoire pour agents LLM à longue durée de vie qui remplace les politiques de rétention basées sur l'âge par une gestion de cycle de vie pilotée par la valeur, permettant ainsi de borner la taille de l'ensemble de travail de récupération et de réduire considérablement la latence extrême tout en maintenant la qualité des réponses.

Emmanuel Bamidele2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Le papier présente SkillNet, une infrastructure open-source qui permet de créer, évaluer et connecter des compétences d'IA à grande échelle via une ontologie unifiée, améliorant ainsi significativement les performances des agents en évitant la redécouverte constante de solutions.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Cette recherche présente un cadre d'apprentissage automatique explicable basé sur un ensemble d'algorithmes, notamment XGBoost et Random Forest, qui offre une prédiction précise et transparente de la maladie d'Alzheimer en exploitant des données cliniques et cognitives structurées pour soutenir la prise de décision médicale.

Nishan Mitra2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Cet article présente MPBMC, une approche hybride combinant des représentations fonctionnelles de circuits matériels via des réseaux de neurones à graphes et des statistiques d'exécution pour regrouper intelligemment les propriétés et accélérer la vérification par model checking borné multi-propriétés.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Cet article propose le NCnet, une architecture de réseau neuronal classique qui, grâce aux compétitions de gradients entre tâches partagées, génère des corrélations non-classiques mesurées par l'inégalité de CHSH, offrant ainsi une nouvelle perspective sur les dynamiques d'entraînement et les interactions internes des réseaux profonds.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Cette étude révèle une nouvelle vulnérabilité des grands modèles de langage multimodaux où l'optimisation d'un terme de perte visant à maximiser l'instabilité numérique génère des images perturbatrices provoquant une dégradation significative des performances, même avec de minimes modifications visuelles.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Cet article propose une nouvelle méthode d'apprentissage appelée HARR (Heterogeneous Attribute Reconstruction and Representation) qui transforme les attributs hétérogènes numériques et catégoriels en un espace homogène pour optimiser la métrique de distance et améliorer la précision et l'efficacité du clustering de données mixtes.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Le papier propose VSPrefill, une méthode d'attention sparse à complexité linéaire utilisant un indexage léger et une stratégie de seuil adaptatif pour accélérer l'inférence de modèles de langage sur de longs contextes tout en préservant une grande précision.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Ce papier présente le MAD-SmaAt-GNet, un réseau de neurones multimodal guidé par l'advection qui améliore la précision et l'efficacité du prévisionnisme des précipitations en combinant l'apprentissage de multiples variables météorologiques avec une composante physique, réduisant ainsi l'erreur quadratique moyenne par rapport à l'architecture de base SmaAt-UNet.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Cette étude révèle que les modèles de langage souffrent de conflits dans les exemples few-shot car ils codent d'abord les règles contradictoires dans leurs couches intermédiaires avant de développer une confiance biaisée dans les couches tardives, un mécanisme que l'on peut atténuer en masquant sélectivement des têtes d'attention spécifiques pour améliorer les performances de plus de 10 %.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

L'article présente Act-Observe-Rewrite (AOR), un cadre où un agent multimodal améliore la manipulation robotique en réécrivant itérativement son propre code de contrôle à partir de l'observation visuelle de ses échecs, sans nécessiter de démonstrations, de réingénierie des récompenses ou de mises à jour par gradient.

Vaishak Kumar2026-03-06💻 cs

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Cette étude propose un modèle de prédiction de trajectoire de navires en voies navigables intérieures basé sur un LSTM et des paramètres de domaine naval pour améliorer l'interprétabilité, révélant que bien que l'architecture d'attention améliore la précision, les poids appris ne reflètent pas toujours une relation causale attendue entre les trajectoires des navires.

Tom Legel, Dirk Söffker, Roland Schätzle + 1 more2026-03-06💻 cs

Dictionary Based Pattern Entropy for Causal Direction Discovery

Cet article propose un cadre novateur de « Dictionary Based Pattern Entropy » (DPE) qui, en combinant la théorie de l'information algorithmique et de Shannon, infère avec succès la direction de causalité et les sous-motifs déterminants dans les séquences symboliques temporelles en minimisant l'incertitude liée aux motifs, surpassant ainsi les méthodes existantes sur divers systèmes synthétiques et réels.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

Cet article présente un système de reconnaissance d'activités utilisant un réseau de neurones convolutifs à dilatation circulaire (CDCNN) pour traiter les données multi-modales de semelles intelligentes, atteignant une précision de 86,42 % dans une évaluation indépendante du sujet et démontrant la contribution prépondérante des capteurs inertiels.

Yanhua Zhao2026-03-06💻 cs

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Cet article propose le cadre MTDP, une méthode de pré-entraînement par distillation multi-enseignants qui exploite des modèles fondationnels existants en vision et en séries temporelles pour améliorer l'apprentissage des modèles fondationnels EEG, surpassant ainsi les approches auto-supervisées tout en nécessitant seulement 25 % des données de pré-entraînement.

Chenqi Li, Yu Liu, Shuo Zhang + 2 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Cet article propose une modélisation bayésienne des temps d'arrêt de la conjecture de Collatz en comparant une régression hiérarchique binomiale négative et une approximation générative basée sur la décomposition en blocs impairs, démontrant que la structure modulaire de bas ordre (notamment $n \bmod 8$ ) est un facteur clé de l'hétérogénéité observée.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

← Précédent Suivant →