stat.ML articles | Gist.Science

ContextBench: Modifying Contexts for Targeted Latent Activation

Le papier présente ContextBench, un benchmark évaluant la capacité à générer des entrées linguistiquement fluides activant des comportements ou caractéristiques latentes spécifiques dans les modèles de langage, et démontre que des variantes améliorées de l'optimisation évolutive de prompts surpassent les méthodes actuelles pour équilibrer efficacité d'élicitation et fluidité.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac BloomMon, 09 Ma🤖 cs.AI

Iterative Quantum Feature Maps

L'article propose les Cartes de Caractéristiques Quantiques Itératives (IQFMs), un cadre hybride qui assemble itérativement des cartes de caractéristiques quantiques peu profondes avec des poids d'augmentation classiques pour surmonter les limitations du matériel quantique actuel et atteindre des performances compétitives sans nécessiter l'optimisation de paramètres quantiques variationnels.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka OshimaMon, 09 Ma⚛️ quant-ph

Learning the action for long-time-step simulations of molecular dynamics

Cet article propose une méthode d'apprentissage automatique qui, en découvrant des cartes structurelles préservant la symplecticité et la réversibilité temporelle équivalentes à l'action mécanique, permet d'effectuer des simulations de dynamique moléculaire avec des pas de temps longs tout en éliminant les artefacts énergétiques et en assurant une bonne conservation des propriétés physiques.

Filippo Bigi, Johannes Spies, Michele CeriottiMon, 09 Ma🔬 cond-mat.mtrl-sci

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Cet article propose Kernel VICReg, un cadre d'apprentissage auto-supervisé novateur qui transpose l'objectif VICReg dans un espace de Hilbert à noyau reproduisant (RKHS) pour capturer des dépendances non linéaires et améliorer les performances sur des données à structure complexe sans nécessiter d'étiquettes.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul FieguthMon, 09 Ma🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Ce papier présente la TACE (Tensor Atomic Cluster Expansion), un modèle d'apprentissage machine atomistique universel basé sur des tenseurs cartésiens irréductibles qui unifie la modélisation scalaire et tensorielle pour prédire avec précision et stabilité une large gamme d'observables, y compris les réponses aux champs externes et les spectres, sans recourir à des couplages de moment angulaire complexes.

Zemin Xu, Wenbo Xie, P. HuMon, 09 Ma🔬 cond-mat.mtrl-sci

Learning Centre Partitions from Summaries

Cet article propose une méthode statistique innovante, baptisée « Clusters-of-Centres », qui utilise des tests de Cochran multivariés et un algorithme de bootstrap multi-tours sur des données résumées pour détecter l'hétérogénéité entre centres et identifier de manière fiable leurs regroupements naturels.

Zinsou Max Debaly, Jean-Francois Ethier, Michael H. Neumann, Félix Camirand-LemyreMon, 09 Ma🔢 math

Self-Speculative Masked Diffusions

Les auteurs proposent les « Self-Speculative Masked Diffusions », une nouvelle classe de modèles de diffusion masquée pour données discrètes qui réduit de moitié le nombre d'évaluations de réseau neuronal nécessaires à la génération d'échantillons de haute qualité en remplaçant la prédiction factorisée par une distribution prédictive non factorisée obtenue via un mécanisme d'échantillonnage spéculatif intégré.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud DoucetMon, 09 Ma🤖 cs.LG

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Cet article démontre théoriquement et expérimentalement que l'intégration d'un vérificateur externe dans le processus de réentraînement sur des données synthétiques permet d'éviter l'effondrement du modèle et d'obtenir des améliorations à court terme, bien que la convergence à long terme soit limitée par la fiabilité de ce vérificateur.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng XuMon, 09 Ma🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

Ce papier propose le CADM, une métrique de distance adaptative et personnalisée par cluster pour le regroupement de données catégorielles et mixtes, qui améliore les performances en ajustant dynamiquement les distances en fonction des distributions spécifiques de chaque cluster.

Taixi Chen, Yiu-ming Cheung, Yiqun ZhangMon, 09 Ma🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Le papier présente DAISI, un algorithme d'assimilation de données évolutif basé sur des modèles génératifs par flot, qui surpasse les méthodes classiques dans les systèmes non linéaires en intégrant des prévisions via un échantillonnage inverse et en assimilant des observations par guidage sans nécessiter de réentraînement du prior.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik LindstenMon, 09 Ma🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Cet article propose une nouvelle métrique de sensibilité globale basée sur les courbes d'attente conditionnelle individuelle (ICE) pour améliorer l'interprétabilité des modèles d'apprentissage automatique en ingénierie, en surmontant les limites des graphiques de dépendance partielle (PDP) face aux interactions fortes entre variables.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph MorlierMon, 09 Ma🤖 cs.AI

Learning Optimal Distributionally Robust Individualized Treatment Rules Integrating Multi-Source Data

Cet article propose une méthode d'inférence de règles de traitement individualisées robustes (PDRO-ITR) intégrant des données multi-sources pour surmonter les décalages de distribution postérieure et garantir des performances optimales dans le pire des cas.

Wenhai Cui, Wen Su, Xingqiu ZhaoMon, 09 Ma🤖 cs.LG

Prediction-Powered Conditional Inference

Cet article propose une méthode d'inférence conditionnelle sans modèle paramétrique qui combine une localisation par noyaux et des prédictions d'apprentissage automatique pour réduire la variance des estimateurs tout en garantissant la validité statistique, même lorsque les données étiquetées sont rares.

Yang Sui, Jin Zhou, Hua Zhou, Xiaowu DaiMon, 09 Ma🤖 cs.LG

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

L'article présente behavior-dLDS, un modèle de systèmes dynamiques linéaires décomposés qui permet de dissocier les sous-systèmes neuronaux liés au comportement de ceux dédiés aux calculs internes, démontrant ainsi son efficacité sur des données simulées et des enregistrements à grande échelle chez le poisson-zèbre.

Eva Yezerets, En Yang, Misha B. Ahrens, Adam S. CharlesMon, 09 Ma🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Cet article démontre que l'apprentissage d'un modèle fort à partir des labels imparfaits d'un modèle faible via la régression ridge à caractéristiques aléatoires permet d'améliorer substantiellement les lois d'échelle de l'erreur de test, permettant au modèle fort d'atteindre des taux optimaux même lorsque le modèle faible ne voit pas son erreur diminuer avec la taille de l'échantillon.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco MondelliMon, 09 Ma🤖 cs.LG

Design Experiments to Compare Multi-armed Bandit Algorithms

Ce papier propose une nouvelle méthode expérimentale appelée « Artificial Replay » qui permet de comparer efficacement des algorithmes de bandit manchot en réutilisant les données d'une première exécution, réduisant ainsi considérablement les coûts d'interaction tout en garantissant un estimateur non biaisé et à variance sous-linéaire.

Huiling Meng, Ningyuan Chen, Xuefeng GaoMon, 09 Ma🤖 cs.LG

Large deviation principles for convolutional Bayesian neural networks

Cet article établit pour la première fois un principe de grande déviation pour les réseaux de neurones convolutifs dans le régime à nombre infini de canaux, en démontrant ce principe pour les matrices de covariance conditionnelle et la distribution a posteriori, tout en fournissant une preuve simplifiée de la convergence vers un processus gaussien.

Federico Bassetti, Vassili De Palma, Lucia LadelliMon, 09 Ma🔢 math

Agnostic learning in (almost) optimal time via Gaussian surface area

Ce papier améliore l'analyse de Klivans et al. en démontrant que le degré polynomial nécessaire pour l'apprentissage agnostique de classes de concepts à surface de Gauss bornée est de $d = \tilde O (\Gamma^2 / \varepsilon^2)$ , établissant ainsi des bornes quasi-optimales pour l'apprentissage des fonctions de seuil polynomial dans le modèle des requêtes statistiques.

Lucas Pesenti, Lucas Slot, Manuel WiedmerMon, 09 Ma🤖 cs.LG

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Ce papier démontre que les graphes de codage prédictif constituent un sur-ensemble mathématique des réseaux de neurones à propagation avant, renforçant ainsi leur pertinence dans le domaine de l'apprentissage automatique et la notion de topologie des réseaux neuronaux.

Björn van ZwolMon, 09 Ma🤖 cs.AI

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Cet article démontre que le flot de gradient sur les modèles softmax à valeurs polarise intrinsèquement les sorties vers des solutions à faible entropie, offrant ainsi une explication théorique à des phénomènes empiriques des transformateurs tels que les « attention sinks » et les activations massives.

Aditya Varre, Mark Rofin, Nicolas FlammarionMon, 09 Ma🤖 cs.LG

← Précédent Suivant →