cs.LG articles | Gist.Science

SkillNet: Create, Evaluate, and Connect AI Skills

Le papier présente SkillNet, une infrastructure open-source qui permet de créer, évaluer et connecter des compétences d'IA à grande échelle via une ontologie unifiée, améliorant ainsi significativement les performances des agents en évitant la redécouverte constante de solutions.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Cette recherche présente un cadre d'apprentissage automatique explicable basé sur un ensemble d'algorithmes, notamment XGBoost et Random Forest, qui offre une prédiction précise et transparente de la maladie d'Alzheimer en exploitant des données cliniques et cognitives structurées pour soutenir la prise de décision médicale.

Nishan Mitra2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Cet article présente MPBMC, une approche hybride combinant des représentations fonctionnelles de circuits matériels via des réseaux de neurones à graphes et des statistiques d'exécution pour regrouper intelligemment les propriétés et accélérer la vérification par model checking borné multi-propriétés.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Cet article propose le NCnet, une architecture de réseau neuronal classique qui, grâce aux compétitions de gradients entre tâches partagées, génère des corrélations non-classiques mesurées par l'inégalité de CHSH, offrant ainsi une nouvelle perspective sur les dynamiques d'entraînement et les interactions internes des réseaux profonds.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Cette étude révèle une nouvelle vulnérabilité des grands modèles de langage multimodaux où l'optimisation d'un terme de perte visant à maximiser l'instabilité numérique génère des images perturbatrices provoquant une dégradation significative des performances, même avec de minimes modifications visuelles.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Cet article propose une nouvelle méthode d'apprentissage appelée HARR (Heterogeneous Attribute Reconstruction and Representation) qui transforme les attributs hétérogènes numériques et catégoriels en un espace homogène pour optimiser la métrique de distance et améliorer la précision et l'efficacité du clustering de données mixtes.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Le papier propose VSPrefill, une méthode d'attention sparse à complexité linéaire utilisant un indexage léger et une stratégie de seuil adaptatif pour accélérer l'inférence de modèles de langage sur de longs contextes tout en préservant une grande précision.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Ce papier présente le MAD-SmaAt-GNet, un réseau de neurones multimodal guidé par l'advection qui améliore la précision et l'efficacité du prévisionnisme des précipitations en combinant l'apprentissage de multiples variables météorologiques avec une composante physique, réduisant ainsi l'erreur quadratique moyenne par rapport à l'architecture de base SmaAt-UNet.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Cette étude révèle que les modèles de langage souffrent de conflits dans les exemples few-shot car ils codent d'abord les règles contradictoires dans leurs couches intermédiaires avant de développer une confiance biaisée dans les couches tardives, un mécanisme que l'on peut atténuer en masquant sélectivement des têtes d'attention spécifiques pour améliorer les performances de plus de 10 %.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

L'article présente Act-Observe-Rewrite (AOR), un cadre où un agent multimodal améliore la manipulation robotique en réécrivant itérativement son propre code de contrôle à partir de l'observation visuelle de ses échecs, sans nécessiter de démonstrations, de réingénierie des récompenses ou de mises à jour par gradient.

Vaishak Kumar2026-03-06💻 cs

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Cette étude propose un modèle de prédiction de trajectoire de navires en voies navigables intérieures basé sur un LSTM et des paramètres de domaine naval pour améliorer l'interprétabilité, révélant que bien que l'architecture d'attention améliore la précision, les poids appris ne reflètent pas toujours une relation causale attendue entre les trajectoires des navires.

Tom Legel, Dirk Söffker, Roland Schätzle + 1 more2026-03-06💻 cs

Dictionary Based Pattern Entropy for Causal Direction Discovery

Cet article propose un cadre novateur de « Dictionary Based Pattern Entropy » (DPE) qui, en combinant la théorie de l'information algorithmique et de Shannon, infère avec succès la direction de causalité et les sous-motifs déterminants dans les séquences symboliques temporelles en minimisant l'incertitude liée aux motifs, surpassant ainsi les méthodes existantes sur divers systèmes synthétiques et réels.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

Cet article présente un système de reconnaissance d'activités utilisant un réseau de neurones convolutifs à dilatation circulaire (CDCNN) pour traiter les données multi-modales de semelles intelligentes, atteignant une précision de 86,42 % dans une évaluation indépendante du sujet et démontrant la contribution prépondérante des capteurs inertiels.

Yanhua Zhao2026-03-06💻 cs

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Cet article propose le cadre MTDP, une méthode de pré-entraînement par distillation multi-enseignants qui exploite des modèles fondationnels existants en vision et en séries temporelles pour améliorer l'apprentissage des modèles fondationnels EEG, surpassant ainsi les approches auto-supervisées tout en nécessitant seulement 25 % des données de pré-entraînement.

Chenqi Li, Yu Liu, Shuo Zhang + 2 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Cet article propose une modélisation bayésienne des temps d'arrêt de la conjecture de Collatz en comparant une régression hiérarchique binomiale négative et une approximation générative basée sur la décomposition en blocs impairs, démontrant que la structure modulaire de bas ordre (notamment $n \bmod 8$ ) est un facteur clé de l'hétérogénéité observée.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2

Cette étude présente Ab-Affinity, un nouveau modèle de langage large capable de prédire avec précision l'affinité de liaison des anticorps contre le SARS-CoV-2, une avancée clé pour la conception d'anticorps neutralisants grâce à l'intelligence artificielle et aux données expérimentales croissantes.

Faisal Bin Ashraf, Animesh Ray, Stefano Lonardi2026-03-06💻 cs

Augmenting representations with scientific papers

Cette étude propose un cadre d'apprentissage contrastif qui aligne les spectres X avec la littérature scientifique pour créer des représentations multimodales partagées, améliorant ainsi l'estimation de variables physiques et facilitant l'identification de sources astrophysiques rares.

Nicolò Oreste Pinciroli Vago, Rocco Di Tella, Carolina Cuesta-Lázaro + 3 more2026-03-06✓ Author reviewed ⓘ🔭 astro-ph

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

Cet article présente l'apprentissage de Hessien projeté (PHL), une méthode évolutive qui intègre des informations de courbure dans l'entraînement des potentiels interatomiques basés sur l'apprentissage automatique via des produits Hessien-vecteur, permettant d'atteindre une précision de second ordre comparable à celle de l'utilisation de Hessiens complets tout en réduisant considérablement les coûts de calcul et de mémoire.

Austin Rodriguez, Justin S. Smith, Sakib Matin + 3 more2026-03-06🔬 physics

The Volterra signature

Cet article propose la signature de Volterra, une représentation de caractéristiques explicite et interprétable pour les séries temporelles non markoviennes, qui offre des garanties théoriques d'approximation universelle, permet un calcul efficace via des équations différentielles et des noyaux intégraux, et surpasse les signatures de chemin classiques dans les tâches d'apprentissage dynamique.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Cet article propose un cadre de gouvernance appelé « Invariant Causal Routing » (ICR) qui utilise la découverte causale et le raisonnement contrefactuel pour identifier des règles politiques interprétables et stables capables de guider l'émergence de normes sociales durables dans les économies de marché en ligne, même en présence de changements de distribution.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

← Précédent Suivant →