cs.LG articles | Gist.Science

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Ce papier présente Skywork-Reward-V2, une série de modèles de récompense open-source qui atteignent des performances de pointe grâce à l'utilisation du jeu de données SynPref-40M, créé via une synergie humain-IA pour curer à grande échelle des préférences de haute qualité.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Cet article présente MC-INR, un cadre novateur basé sur l'apprentissage par méta-entraînement et le regroupement dynamique pour encoder efficacement des données de simulation scientifique multivariées sur des grilles non structurées, surmontant ainsi les limitations des représentations neuronales implicites existantes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

EP-GAT: Energy-based Parallel Graph Attention Neural Network for Stock Trend Classification

Cet article présente EP-GAT, un réseau de neurones à attention graphique parallèle basé sur l'énergie qui améliore la classification des tendances boursières en modélisant dynamiquement les interdépendances entre les actions via une distribution de Boltzmann et en préservant les dynamiques intra-actions hiérarchiques, surpassant ainsi plusieurs méthodes de référence sur cinq jeux de données réels.

Zhuodong Jiang, Pengju Zhang, Peter Martin2026-03-04🤖 cs.LG

Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact

Cet article propose une nouvelle méthode de guidage sans classificateur pour les modèles de diffusion masqués, fondée sur une analyse théorique en basse dimension qui révèle que le guidage tardif améliore la qualité des échantillons et permet de corriger un déséquilibre dans les transitions, conduisant à une simple modification de code qui améliore significativement la génération d'images et de textes conditionnels.

Kevin Rojas, Ye He, Chieh-Hsin Lai + 3 more2026-03-04📊 stat

Gauge Flow Models

Cet article présente les modèles de flux de jauge, une nouvelle classe de modèles génératifs intégrant un champ de jauge apprenable dans les équations différentielles ordinaires, qui surpassent significativement les modèles de flux traditionnels sur des mélanges gaussiens et promettent des performances améliorées pour diverses tâches génératives.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

Higher Gauge Flow Models

Cet article présente les modèles de flux de jauge supérieurs, une nouvelle classe de modèles génératifs qui étendent les modèles de jauge classiques en intégrant des algèbres L $_{\infty}$ pour incorporer la géométrie et les symétries supérieures, démontrant ainsi des performances supérieures sur des mélanges gaussiens.

Alexander Strunk, Roland Assam2026-03-04🤖 cs.AI

The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's Algorithm

Cet article établit l'équivalence entre l'algorithme GPTQ et l'algorithme du plan le plus proche de Babai en démontrant que la quantisation des réseaux de neurones correspond à la résolution du problème du vecteur le plus proche dans un réseau généré par les données d'entrée, ouvrant ainsi la voie à l'utilisation de la réduction de base de réseau pour améliorer la quantisation.

Johann Birnick2026-03-04🤖 cs.AI

Privacy Risk Predictions Based on Fundamental Understanding of Personal Data and an Evolving Threat Landscape

En analysant plus de 5 000 cas de vol d'identité, cette recherche propose un cadre de prédiction des risques de confidentialité basé sur un graphe d'écosystème d'identité et des réseaux de neurones graphiques pour estimer la probabilité que la divulgation d'un attribut d'identité entraîne celle d'autres données personnelles.

Haoran Niu, K. Suzanne Barber2026-03-04🤖 cs.LG

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

Le papier présente Shuffle-R1, un cadre d'apprentissage par renforcement efficace pour les modèles de langage multimodaux qui résout les problèmes d'effondrement des avantages et de silence des trajectoires grâce à un échantillonnage dynamique et un remaniement des données pour optimiser l'entraînement.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Nonparametric Reaction Coordinate Optimization with Histories: A Framework for Rare Event Dynamics

Ce papier présente un cadre d'optimisation non paramétrique des coordonnées de réaction intégrant l'historique des trajectoires, permettant une analyse robuste des dynamiques d'événements rares dans des systèmes complexes et des données longitudinales sans nécessiter d'échantillonnage extensif.

Polina V. Banushkina, Sergei V. Krivov2026-03-04🧬 q-bio

Learning Acrobatic Flight from Preferences

Cet article propose REC, un cadre d'apprentissage de récompense probabiliste qui utilise l'incertitude d'un ensemble de modèles pour améliorer l'apprentissage par préférences, permettant ainsi à des drones quadricoptères d'exécuter des manœuvres acrobatiques complexes avec un transfert réussi vers le monde réel sans récompenses manuelles.

Colin Merk, Ismail Geles, Jiaxu Xing + 3 more2026-03-04🤖 cs.LG

Tabular foundation model for GEOAI benchmark problems BM/AirportSoilProperties/2/2025

Cette étude démontre que le modèle de fondation TabPFN, appliqué sans entraînement aux problèmes de caractérisation géotechnique du benchmark GEOAI, surpasse les modèles bayésiens hiérarchiques traditionnels en précision et en efficacité pour la prédiction spatiale et l'imputation de données, marquant ainsi une avancée significative dans le domaine.

Taiga Saito, Yu Otake, Stephen Wu2026-03-04🤖 cs.LG

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Cet article propose le cadre DPH-RL, qui utilise des divergences f couvrant la masse (comme la KL directe) comme mécanisme de répétition pour préserver la diversité des solutions et améliorer les performances Pass@k et Pass@1 dans l'apprentissage par renforcement avec récompense vérifiable, tout en évitant l'oubli catastrophique et en réduisant les coûts de calcul.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagram

Cet article établit des bornes d'erreur rigoureuses et un diagramme de phase pour l'entraînement des ResNets profonds, démontrant que leur dynamique de convergence vers une équation différentielle ordinaire (ODE) moyenne dépend crucialement de l'échelle du résidu, permettant soit une mise à jour non linéaire des caractéristiques locales, soit un régime « paresseux » linéaire.

Lénaïc Chizat2026-03-04🤖 cs.LG

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

Le système ScaleDoc accélère l'analyse sémantique de vastes collections de documents en découplant l'exécution des prédicats en une phase de représentation hors ligne et une phase de filtrage en ligne optimisée, utilisant un modèle proxy léger et un mécanisme de cascade adaptatif pour réduire considérablement les coûts d'inférence des LLM tout en garantissant la précision.

Hengrui Zhang, Yulong Hui, Yihao Liu + 1 more2026-03-04🤖 cs.AI

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Cet article présente AIGB-Pearl, une méthode novatrice qui améliore les enchères automatiques génératives en intégrant une évaluation de trajectoires et une optimisation de politique contrainte pour permettre une exploration sûre au-delà des données statiques, surpassant ainsi les performances des approches existantes.

Zhiyu Mou, Yiqin Lv, Miao Xu + 9 more2026-03-04🤖 cs.AI

Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

Cet article propose une méthode d'estimation rapide des distances de Wasserstein pour de multiples paires de distributions en apprenant un modèle de régression linéaire sur les distances de Wasserstein tranchées (standard et relevées), surpassant les approches existantes comme Wasserstein Wormhole tout en accélérant son entraînement.

Khai Nguyen, Hai Nguyen, Nhat Ho2026-03-04📊 stat

Towards a more realistic evaluation of machine learning models for bearing fault diagnosis

Cet article propose une méthodologie d'évaluation rigoureuse et exempte de fuites de données pour le diagnostic de défauts de roulements, en mettant l'accent sur une partition des données par roulement et une formulation multi-étiquettes afin d'améliorer la généralisation et la fiabilité des modèles d'apprentissage automatique dans des applications industrielles réalistes.

João Paulo Vieira, Victor Afonso Bauler, Rodrigo Kobashikawa Rosa + 1 more2026-03-04⚡ eess

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Cet article propose un cadre théorique reliant la complexité de Kolmogorov aux Transformers en démontrant l'existence d'objectifs de longueur de description asymptotiquement optimes, tout en illustrant via une approche variationnelle à base de mélanges gaussiens que l'optimisation de ces objectifs pour améliorer la généralisation reste un défi majeur.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Cette étude théorique démontre que, bien que l'apprentissage par renforcement améliore la planification des modèles de langage en évitant les solutions erronées du fine-tuning supervisé grâce à l'exploration, les méthodes de gradient de politique souffrent d'un effondrement de la diversité, contrairement à l'apprentissage Q qui préserve cette diversité mais nécessite une conception rigoureuse des récompenses pour éviter les biais.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

← Précédent Suivant →