cs.LG articles | Gist.Science

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

Cet article propose une approche de raisonnement en chaîne de pensée à tokens continus (CoT2) qui permet une exploration parallèle de multiples traces, offrant des garanties théoriques et des gains d'efficacité démontrés expérimentalement sur des tâches de raisonnement logique complexes.

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang + 3 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

Le papier présente SealQA, un nouveau benchmark évaluant les modèles de langage augmentés par la recherche sur des questions factuelles complexes où les résultats du web sont bruyants ou contradictoires, révélant ainsi les limites critiques des modèles d'IA les plus avancés actuels en matière de raisonnement et de gestion du contexte long.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review

Cette revue systématique analyse 68 expériences de déploiement de modèles d'apprentissage automatique sur des FPGA pour l'observation de la Terre, en proposant deux taxonomies distinctes pour les architectures de modèles et les stratégies d'implémentation, tout en suivant les directives PRISMA 2020 pour assurer la transparence et la reproductibilité.

Cédric Léonard, Dirk Stober, Martin Schulz2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Ce papier présente HSG-12M, un vaste ensemble de données de 12 millions de multigraphes spatiaux dérivés des spectres énergétiques de cristaux non hermitiens, généré par le pipeline automatisé Poly2Graph pour combler le manque de benchmarks à grande échelle en physique de la matière condensée et en apprentissage géométrique.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

L'article présente EDINET-Bench, un nouveau benchmark open-source en japonais évaluant les capacités des grands modèles de langage sur des tâches financières complexes issues de rapports annuels, révélant leurs limites actuelles et soulignant la nécessité de cadres d'évaluation plus riches intégrant des simulations réalistes et un soutien au raisonnement.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

Le papier propose SPEED-RL, une méthode d'apprentissage par renforcement adaptatif qui accélère l'entraînement des modèles de raisonnement de 2 à 6 fois en sélectionnant dynamiquement des exemples de difficulté intermédiaire pour optimiser le rapport signal-bruit du gradient, sans compromettre la précision ni nécessiter de réglage manuel.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Cet article présente BWFlow, un cadre de matching de flux pour la génération de graphes qui, en modélisant l'évolution conjointe des nœuds et des arêtes via des champs aléatoires de Markov et le transport optimal de Bures-Wasserstein, résout les problèmes de convergence et de régularité inhérents aux méthodes d'interpolation linéaire disjointe.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

Ce papier propose ExSUL, un cadre d'apprentissage en ligne novateur qui contrôle le taux de fausses découvertes (FDR) dans la génération sélective de modèles de langage face à des retours d'information adverses et partiels, en transformant la régression des bandits en une borne FDR via une « déverrouillage » des signaux de feedback.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

Cet article propose les SKANODEs, un cadre intégrant des réseaux de Kolmogorov-Arnold aux équations différentielles neuronales pour modéliser avec précision des dynamiques non linéaires complexes tout en découvrant automatiquement leurs lois physiques sous-jacentes sous forme d'expressions symboliques interprétables.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Cet article présente les Réseaux de Présymplectification (PSN), un cadre innovant qui restaure une géométrie symplectique non dégénérée pour les systèmes mécaniques dissipatifs et contraints en les relevant dans une variété de dimension supérieure via des structures de Dirac, permettant ainsi une prédiction à long terme stable et précise pour des robots complexes comme le quadrupède ANYmal.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Cet article propose une analyse de la robustesse des politiques d'apprentissage par renforcement en appliquant des filtres synaptiques comme contrainte interne et des attaques adverses comme contrainte externe pour classifier les paramètres du réseau en fragiles, robustes ou antifragiles, révélant ainsi l'existence de paramètres qui améliorent les performances sous stress.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Le papier présente MuRating, un cadre évolutif qui transfère les signaux de qualité des données anglaises vers un évaluateur multilingue unique pour sélectionner des sous-ensembles de données équilibrés, améliorant ainsi significativement les performances des modèles de langage multilingues sur des tâches exigeantes en connaissances.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

Le papier présente Overtone, un cadre unifié pour les émulateurs de physique qui atténue les erreurs systématiques et optimise l'efficacité computationnelle en modulant dynamiquement et cycliquement la taille des patches lors des inférences.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Cet article établit des bornes de super-approximation quasi-optimales pour les réseaux de neurones ReLU approximatant des fonctions de Korobov, démontrant que leur expressivité échappe largement au fléau de la dimensionnalité grâce à l'utilisation d'éléments finis sur grilles clairsemées et de techniques d'extraction de bits.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Cet article propose une méthode d'apprentissage par renforcement inverse basée sur l'entropie maximale et les espaces de Hilbert à noyau reproduisant (RKHS) pour les jeux à champ moyen, permettant d'inférer des structures de récompenses non linéaires riches avec des garanties théoriques de convergence et une précision supérieure aux approches linéaires existantes.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Cet article propose EDA, un cadre théorique unifié qui étend les modèles de diffusion EDM aux bruits arbitraires pour améliorer la restauration d'images médicales et naturelles sans surcharge computationnelle, tout en démontrant une forte capacité de généralisation avec seulement cinq étapes d'échantillonnage.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Cet article présente un algorithme EM quantique pour l'entraînement des machines de Boltzmann quantiques, une méthode géométrique qui contourne le problème des plateaux stériles et améliore les performances par rapport à la descente de gradient sur des architectures semi-quantiques hybrides.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Cet article propose TIC-GRPO, un nouvel algorithme d'optimisation pour l'apprentissage par renforcement à partir de retours humains qui remplace les ratios d'importance au niveau des tokens par un ratio au niveau de la trajectoire pour estimer le gradient de la politique actuelle, garantissant ainsi une convergence plus rapide et des performances supérieures tout en conservant la structure sans critique du GRPO.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Cette étude propose un cadre d'évaluation rigoureux et équilibré pour les modèles d'intelligence artificielle de détection des crises néonatales, en identifiant les métriques et les tests d'équivalence avec les experts les plus fiables pour garantir leur validité clinique.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Cette étude présente la première analyse systématique de mécanismes de régularisation appliqués pendant l'entraînement pour contrer la désalignement émergent dans les modèles de langage, démontrant que l'intercalation stratégique d'exemples d'entraînement basée sur l'écart de perplexité constitue la méthode la plus efficace pour prévenir les comportements néfastes tout en préservant les performances.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

← Précédent Suivant →