ContextBench: Modifying Contexts for Targeted Latent Activation

Le papier présente ContextBench, un benchmark évaluant la capacité à générer des entrées linguistiquement fluides activant des comportements ou caractéristiques latentes spécifiques dans les modèles de langage, et démontre que des variantes améliorées de l'optimisation évolutive de prompts surpassent les méthodes actuelles pour équilibrer efficacité d'élicitation et fluidité.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac BloomMon, 09 Ma🤖 cs.AI

Iterative Quantum Feature Maps

L'article propose les Cartes de Caractéristiques Quantiques Itératives (IQFMs), un cadre hybride qui assemble itérativement des cartes de caractéristiques quantiques peu profondes avec des poids d'augmentation classiques pour surmonter les limitations du matériel quantique actuel et atteindre des performances compétitives sans nécessiter l'optimisation de paramètres quantiques variationnels.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka OshimaMon, 09 Ma⚛️ quant-ph

Learning the action for long-time-step simulations of molecular dynamics

Cet article propose une méthode d'apprentissage automatique qui, en découvrant des cartes structurelles préservant la symplecticité et la réversibilité temporelle équivalentes à l'action mécanique, permet d'effectuer des simulations de dynamique moléculaire avec des pas de temps longs tout en éliminant les artefacts énergétiques et en assurant une bonne conservation des propriétés physiques.

Filippo Bigi, Johannes Spies, Michele CeriottiMon, 09 Ma🔬 cond-mat.mtrl-sci

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Ce papier présente la TACE (Tensor Atomic Cluster Expansion), un modèle d'apprentissage machine atomistique universel basé sur des tenseurs cartésiens irréductibles qui unifie la modélisation scalaire et tensorielle pour prédire avec précision et stabilité une large gamme d'observables, y compris les réponses aux champs externes et les spectres, sans recourir à des couplages de moment angulaire complexes.

Zemin Xu, Wenbo Xie, P. HuMon, 09 Ma🔬 cond-mat.mtrl-sci

Self-Speculative Masked Diffusions

Les auteurs proposent les « Self-Speculative Masked Diffusions », une nouvelle classe de modèles de diffusion masquée pour données discrètes qui réduit de moitié le nombre d'évaluations de réseau neuronal nécessaires à la génération d'échantillons de haute qualité en remplaçant la prédiction factorisée par une distribution prédictive non factorisée obtenue via un mécanisme d'échantillonnage spéculatif intégré.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud DoucetMon, 09 Ma🤖 cs.LG

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Cet article démontre théoriquement et expérimentalement que l'intégration d'un vérificateur externe dans le processus de réentraînement sur des données synthétiques permet d'éviter l'effondrement du modèle et d'obtenir des améliorations à court terme, bien que la convergence à long terme soit limitée par la fiabilité de ce vérificateur.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng XuMon, 09 Ma🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Le papier présente DAISI, un algorithme d'assimilation de données évolutif basé sur des modèles génératifs par flot, qui surpasse les méthodes classiques dans les systèmes non linéaires en intégrant des prévisions via un échantillonnage inverse et en assimilant des observations par guidage sans nécessiter de réentraînement du prior.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik LindstenMon, 09 Ma🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Cet article propose une nouvelle métrique de sensibilité globale basée sur les courbes d'attente conditionnelle individuelle (ICE) pour améliorer l'interprétabilité des modèles d'apprentissage automatique en ingénierie, en surmontant les limites des graphiques de dépendance partielle (PDP) face aux interactions fortes entre variables.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph MorlierMon, 09 Ma🤖 cs.AI

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

L'article présente behavior-dLDS, un modèle de systèmes dynamiques linéaires décomposés qui permet de dissocier les sous-systèmes neuronaux liés au comportement de ceux dédiés aux calculs internes, démontrant ainsi son efficacité sur des données simulées et des enregistrements à grande échelle chez le poisson-zèbre.

Eva Yezerets, En Yang, Misha B. Ahrens, Adam S. CharlesMon, 09 Ma🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Cet article démontre que l'apprentissage d'un modèle fort à partir des labels imparfaits d'un modèle faible via la régression ridge à caractéristiques aléatoires permet d'améliorer substantiellement les lois d'échelle de l'erreur de test, permettant au modèle fort d'atteindre des taux optimaux même lorsque le modèle faible ne voit pas son erreur diminuer avec la taille de l'échantillon.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco MondelliMon, 09 Ma🤖 cs.LG

Agnostic learning in (almost) optimal time via Gaussian surface area

Ce papier améliore l'analyse de Klivans et al. en démontrant que le degré polynomial nécessaire pour l'apprentissage agnostique de classes de concepts à surface de Gauss bornée est de d=O~(Γ2/ε2)d = \tilde O (\Gamma^2 / \varepsilon^2), établissant ainsi des bornes quasi-optimales pour l'apprentissage des fonctions de seuil polynomial dans le modèle des requêtes statistiques.

Lucas Pesenti, Lucas Slot, Manuel WiedmerMon, 09 Ma🤖 cs.LG