cs.LG articles | Gist.Science

Neural Networks Generalize on Low Complexity Data

Cet article démontre que les réseaux de neurones feedforward à activation ReLU, lorsqu'ils sont sélectionnés selon le principe de la longueur minimale de description (MDL) pour interpoler des données générées par un langage de programmation simple, parviennent à généraliser avec une haute probabilité, même sur des tâches complexes comme le test de primalité.

Sourav Chatterjee, Timothy Sudijono2026-03-03🤖 cs.AI

Leray-Schauder Mappings for Operator Learning

Cet article présente un algorithme d'apprentissage d'opérateurs entre espaces de Banach basé sur les applications de Leray-Schauder, qui constitue un approximateur universel et démontre des performances comparables aux modèles de l'état de l'art sur des jeux de données de référence.

Emanuele Zappala2026-03-03🤖 cs.LG

Decoupling Dynamical Richness from Representation Learning: Towards Practical Measurement

Cet article propose une métrique efficace et indépendante de la performance pour mesurer la richesse dynamique des réseaux de neurones, permettant d'analyser la relation entre les facteurs d'entraînement et les représentations sans se fier à la précision prédictive.

Yoonsoo Nam, Nayara Fonseca, Seok Hyeong Lee + 6 more2026-03-03📊 stat

Neuro-Symbolic Skill Discovery for Conditional Multi-Level Planning

Cet article présente une architecture d'apprentissage neuro-symbolique novatrice qui extrait des compétences symboliques généralisables à partir de quelques démonstrations non étiquetées, en combinant des réseaux de neurones pour la découverte de symboles et le contrôle de bas niveau avec des modèles de langage visuel pour l'interprétation et la planification hiérarchique, permettant ainsi d'exécuter des tâches complexes à long terme dans des environnements encombrés et non vus.

Hakan Aktas, Yigit Yildirim, Ahmet Firat Gamsiz + 3 more2026-03-03🤖 cs.AI

Deep Concept Identification for Generative Design

Cette étude propose un cadre d'identification de concepts basé sur l'apprentissage profond pour structurer et catégoriser les alternatives de conception générative, facilitant ainsi le processus de sélection des concepteurs face à la diversité des formes.

Ryo Tsumoto, Kentaro Yaji, Yutaka Nomaguchi + 1 more2026-03-03🤖 cs.LG

Error Bounds for Physics-Informed Neural Networks in Fokker-Planck PDEs

Cet article présente un cadre théorique et pratique pour établir des bornes d'erreur rigoureuses lors de l'utilisation de réseaux de neurones informés par la physique (PINN) afin d'approximer efficacement les solutions de l'équation de Fokker-Planck, offrant ainsi une alternative rapide et précise aux méthodes de Monte Carlo pour les systèmes stochastiques complexes.

Chun-Wei Kong, Luca Laurenti, Jay McMahon + 1 more2026-03-03⚡ eess

Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning

Cet article propose la méthode REAG, qui améliore l'apprentissage par renforcement hors dynamique en alignant la distribution des retours dans le domaine source avec celle du domaine cible au sein des cadres de type Decision Transformer, comblant ainsi une lacune théorique et pratique des approches précédentes.

Ruhan Wang, Yu Yang, Zhishuai Liu + 2 more2026-03-03📊 stat

One protein is all you need

Cet article présente ProteinTTT, une méthode d'apprentissage auto-supervisé qui permet de personnaliser en temps réel les modèles de langage protéique pour une protéine cible spécifique, améliorant ainsi significativement la prédiction de structures, de fitness et de fonctions par rapport aux modèles généralistes.

Anton Bushuiev, Roman Bushuiev, Olga Pimenova + 9 more2026-03-03🧬 q-bio

LD-EnSF: Synergizing Latent Dynamics with Ensemble Score Filters for Fast Data Assimilation with Sparse Observations

Ce papier présente LD-EnSF, une nouvelle méthode d'assimilation de données basée sur les scores qui accélère considérablement le suivi de systèmes dynamiques complexes en évitant les simulations coûteuses grâce à l'évolution des dynamiques dans un espace latent compact et l'intégration d'observations rares via un encodeur LSTM.

Pengpeng Xiao, Phillip Si, Peng Chen2026-03-03🤖 cs.LG

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Ce papier présente DAWN-FM, une méthode de Flow Matching intégrant des embeddings de données et de bruit pour résoudre de manière robuste les problèmes inverses mal posés tout en permettant une quantification de l'incertitude.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

Learning sparsity-promoting regularizers for linear inverse problems

Cet article propose une nouvelle approche fondée sur l'optimisation hiérarchique pour apprendre des régularisateurs favorisant la parcimonie dans les problèmes inverses linéaires, en déterminant un opérateur de synthèse optimal avec des garanties théoriques et des validations numériques.

Giovanni S. Alberti, Ernesto De Vito, Tapio Helin + 3 more2026-03-03📊 stat

Efficient Aircraft Design Optimization Using Multi-Fidelity Models and Multi-fidelity Physics Informed Neural Networks

Cette recherche propose une méthode d'optimisation de la conception aéronautique plus efficace en combinant des modèles multi-fidélité, des réseaux de neurones informés par la physique (MPINN) et des autoencodeurs pour prédire rapidement des résultats haute fidélité à partir de simulations basse fidélité, réduisant ainsi la dépendance aux simulations coûteuses comme la FEM et la FVM.

Apurba Sarker2026-03-03🤖 cs.LG

On Demographic Group Fairness Guarantees in Deep Learning

Cet article propose un cadre théorique établissant des bornes sur l'impact des hétérogénéités de distribution sur l'équité des modèles d'apprentissage profond, et introduit une régularisation consciente de l'équité (FAR) qui améliore significativement les performances globales et subgroupales sur divers ensembles de données.

Yan Luo, Congcong Wen, Min Shi + 3 more2026-03-03🤖 cs.LG

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Cet article établit de nouvelles bornes de temps de mélange pour l'algorithme de Langevin projeté et de courbes de confidentialité pour le SGD bruyant sous-échantillonné, en étendant le cadre de l'amplification de la confidentialité par itération (PABI) aux itérations non nécessairement non expansives en exploitant le module de continuité des gradients.

Mario Bravo, Juan P. Flores-Mella, Cristóbal Guzmán2026-03-03📊 stat

On weight and variance uncertainty in neural networks for regression tasks

Cet article étend le cadre de l'incertitude des poids en réseaux de neurones bayésiens pour la régression en intégrant une incertitude sur la variance, démontrant que modéliser explicitement la distribution a posteriori de ce paramètre améliore significativement la généralisation du modèle sur diverses architectures et jeux de données.

Moein Monemi, Morteza Amini, S. Mahmoud Taheri + 1 more2026-03-03🤖 cs.LG

Improving the adaptive and continuous learning capabilities of artificial neural networks: Lessons from multi-neuromodulatory dynamics

Cette étude propose d'améliorer l'apprentissage continu et adaptatif des réseaux de neurones artificiels en s'inspirant des dynamiques multi-neuromodulatrices du cerveau biologique pour surmonter l'oubli catastrophique et renforcer la robustesse face aux environnements changeants.

Jie Mei, Alejandro Rodriguez-Garcia, Daigo Takeuchi + 4 more2026-03-03🧬 q-bio

AI/ML Based Detection and Categorization of Covert Communication in IPv6 Network

Cette étude propose un cadre de détection des communications covertes dans les réseaux IPv6 en combinant l'analyse de trafic réaliste, l'injection de données chiffrées et l'application de techniques d'apprentissage automatique avancées (incluant des modèles génératifs) pour atteindre une précision supérieure à 90 %.

Mohammad Wali Ur Rahman, Yu-Zheng Lin, Carter Weeks + 6 more2026-03-03🤖 cs.AI

Multiscale Training of Convolutional Neural Networks

Cet article propose une méthode d'estimation de gradient multiscale (MGE) et un algorithme d'entraînement Full-Multiscale qui accélèrent considérablement l'entraînement des réseaux de neurones convolutifs sur des images haute résolution en réduisant les coûts de calcul de 4 à 16 fois sans compromettre la performance.

Shadab Ahamed, Niloufar Zakariaei, Eldad Haber + 1 more2026-03-03🤖 cs.LG

Data-Driven Prediction and Control of Hammerstein-Wiener Systems with Implicit Gaussian Processes

Cet article propose une méthode de prédiction et de commande par horizon glissant pour les systèmes de Hammerstein-Wiener, en utilisant des processus gaussiens implicites structurés et des points de dérivée virtuels pour intégrer la connaissance du modèle physique et surpasser les approches boîte noire.

Mingzhou Yin, Matthias A. Müller2026-03-03⚡ eess

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

← Précédent Suivant →