cs.LG articles | Gist.Science

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

Ce papier présente GAR, un cadre d'apprentissage par renforcement adversarial qui entraîne conjointement un générateur de problèmes et un prouveur dans une boucle itérative, permettant d'améliorer significativement l'efficacité de l'entraînement et la performance des modèles sur la preuve de théorèmes formels complexes.

Ruida Wang, Jiarui Yao, Rui Pan + 2 more2026-03-03🤖 cs.AI

TAO: Tolerance-Aware Optimistic Verification for Floating-Point Neural Networks

Ce papier présente TAO, un protocole de vérification optimiste et tolérant aux erreurs qui garantit l'intégrité des inférences de réseaux de neurones flottants sur des matériels hétérogènes non fiables en acceptant des résultats dans des plages d'erreur définies et en utilisant un jeu de contestation hiérarchique, le tout sans nécessiter de matériel de confiance ni de noyaux déterministes.

Jianzhu Yao, Hongxu Su, Taobo Liao + 4 more2026-03-03⚡ eess

ScholarEval: Research Idea Evaluation Grounded in Literature

Ce papier présente ScholarEval, un cadre d'évaluation augmenté par la récupération qui évalue la validité et l'apport des idées de recherche grâce à la littérature, et le valide sur un nouvel ensemble de données expertes (ScholarIdeas) en démontrant sa supériorité par rapport aux systèmes d'IA avancés.

Hanane Nour Moussa, Patrick Queiroz Da Silva, Daniel Adu-Ampratwum + 7 more2026-03-03💬 cs.CL

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Inspiré par le circuit olfactif de la mouche, Fly-CL est un cadre bio-inspiré qui améliore l'apprentissage continu de représentations en résolvant efficacement la multicolinéarité et en réduisant considérablement le temps d'entraînement tout en maintenant des performances de pointe.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Cet article propose une loi d'échelle conditionnelle intégrant des facteurs architecturaux pour optimiser le compromis entre précision et efficacité de l'inférence des grands modèles de langage, démontrant que cette approche permet de surpasser les modèles existants comme LLaMA-3.2 en termes de précision et de débit.

Song Bian, Tao Yu, Shivaram Venkataraman + 1 more2026-03-03🤖 cs.AI

Physics-Informed Parametric Bandits for Beam Alignment in mmWave Communications

Cet article propose deux algorithmes de bandits informés par la physique, nommés *pretc* et *prgreedy*, qui exploitent la propriété de multipath parcimonieuse des canaux mmWave pour surmonter les limites des hypothèses d'unimodalité et améliorer l'alignement et le suivi des faisceaux avec une meilleure robustesse et généralisabilité.

Hao Qin, Thang Duong, Ming F. Li + 1 more2026-03-03🤖 cs.LG

Decoding Dynamic Visual Experience from Calcium Imaging via Cell-Pattern-Aware Pretraining

Ce papier présente POYO-CAP, une stratégie de préentraînement hybride qui exploite l'hétérogénéité des neurones en sélectionnant d'abord les cellules statistiquement régulières pour l'apprentissage, permettant ainsi une amélioration significative et une mise à l'échelle fluide du décodage des expériences visuelles dynamiques à partir d'images calciques.

Sangyoon Bae, Mehdi Azabou, Blake Richards + 1 more2026-03-03🧬 q-bio

Does Feedback Alignment Work at Biological Timescales?

Cette étude démontre que pour fonctionner à l'échelle des temps biologiques, les algorithmes d'alignement des rétroactions doivent respecter un principe d'overlap temporel entre l'activité présynaptique et le signal d'erreur, expliquant ainsi leur robustesse aux décalages de synchronisation modérés.

Marc Gong Bacvanski, Liu Ziyin, Tomaso Poggio2026-03-03🧬 q-bio

LightMem: Lightweight and Efficient Memory-Augmented Generation

Le papier présente LightMem, un système de mémoire léger et efficace inspiré du modèle humain d'Atkinson-Shiffrin qui, grâce à une organisation en trois étapes (mémoire sensorielle, court terme et long terme avec mise à jour hors ligne), améliore significativement la précision des LLMs tout en réduisant drastiquement l'utilisation de tokens et les appels API par rapport aux méthodes existantes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

Ce papier présente les modèles de diffusion discrète à contournement (LDDMs), une approche novatrice qui surmonte la « paroi d'échantillonnage » des modèles de diffusion discrets grâce à un chemin latent déterministe, permettant ainsi de réduire considérablement la perplexité générative et d'améliorer la cohérence du texte et les performances de raisonnement, rivalisant ainsi avec les modèles autoregressifs.

Mingyu Jo, Jaesik Yoon, Justin Deschenaux + 2 more2026-03-03🤖 cs.LG

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

Le papier présente Scaf-GRPO, un cadre d'apprentissage par renforcement qui surmonte le « mur d'apprentissage » des modèles de langage en injectant des indices progressifs lors des stagnations, permettant ainsi d'améliorer significativement leurs capacités de raisonnement complexe sur des benchmarks mathématiques.

Xichen Zhang, Sitong Wu, Yinghao Zhu + 4 more2026-03-03💬 cs.CL

DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

Ce papier propose le cadre DAG-Math, qui modélise le raisonnement par chaîne de pensée des grands modèles de langage comme un processus stochastique sur des graphes acycliques dirigés pour introduire une métrique de « proximité logique » permettant d'évaluer la fidélité des dérivations au-delà de la simple exactitude de la réponse finale.

Yuanhe Zhang, Ilja Kuzborskij, Jason D. Lee + 2 more2026-03-03🤖 cs.AI

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

L'article présente BioCAP, un modèle fondamental biologique qui améliore la classification des espèces et la recherche image-texte en exploitant des légendes synthétiques générées par des modèles de langage multimodaux pour enrichir l'apprentissage au-delà des simples étiquettes.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization

Cet article présente le premier cadre théorique établissant les taux de convergence des optimiseurs adaptatifs comme Adam et Muon sous quantification en virgule flottante, démontrant que leur efficacité est préservée à condition que la longueur de la mantisse croisse logarithmiquement avec le nombre d'itérations, tout en révélant la sensibilité accrue d'Adam aux erreurs de quantification par rapport à Muon.

Xuan Tang, Jichu Li, Difan Zou2026-03-03📊 stat

Accelerating Data Generation for Nonlinear temporal PDEs via homologous perturbation in solution space

Cet article propose un nouvel algorithme de génération de données, appelé HOPSS, qui accélère considérablement la création de jeux d'entraînement pour les équations aux dérivées partielles non linéaires temporelles en utilisant une perturbation homologue dans l'espace des solutions, réduisant ainsi le temps de calcul à environ 10 % des méthodes traditionnelles tout en préservant la précision nécessaire à l'entraînement des modèles.

Lei Liu, Zhenxin Huang, Hong Wang + 4 more2026-03-03🤖 cs.LG

Taming Silent Failures: A Framework for Verifiable AI Reliability

Cet article présente FAME, un cadre novateur combinant synthèse formelle hors ligne et surveillance en temps réel pour détecter les défaillances silencieuses des systèmes d'IA critiques et garantir leur conformité aux normes de sécurité ISO.

Guan-Yan Yang, Farn Wang2026-03-03⚡ eess

Clustering by Denoising: Latent plug-and-play diffusion for single-cell data

Cet article présente un cadre de diffusion plug-and-play dans l'espace latent qui améliore le regroupement des données de séquençage ARN à cellule unique en séparant l'espace d'observation de l'espace de débruitage via une procédure d'échantillonnage de Gibbs, permettant ainsi un traitement adaptatif du bruit, une quantification de l'incertitude et une meilleure cohérence biologique des clusters.

Dominik Meier, Shixing Yu, Sagnik Nandy + 2 more2026-03-03📊 stat

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP est une méthode feed-forward novatrice qui prédit de manière précise et rapide les champs de propriétés mécaniques volumétriques (module de Young, coefficient de Poisson et densité) de n'importe quel objet 3D en apprenant un espace latent de matériaux physiquement plausibles à partir d'un nouveau pipeline d'annotation et d'un benchmark dédié.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Adaptive Context Length Optimization with Low-Frequency Truncation for Multi-Agent Reinforcement Learning

Cet article propose un cadre d'apprentissage par renforcement multi-agent adaptatif qui optimise dynamiquement la longueur du contexte via une analyse de gradient temporel et une troncature des basses fréquences pour éliminer les informations redondantes, améliorant ainsi l'efficacité de l'exploration et les performances sur des tâches à dépendances à long terme.

Wenchang Duan, Yaoliang Yu, Jiwan He + 1 more2026-03-03🤖 cs.LG

Data-Augmented Deep Learning for Downhole Depth Sensing and Validation

Cet article présente une approche d'apprentissage profond enrichie par des techniques d'augmentation de données, notamment la régularisation et l'échantillonnage multiple, pour améliorer la précision et la généralisation des modèles de reconnaissance des raccords de tubage dans des conditions de données limitées, validant ainsi leur efficacité sur des signaux réels pour la calibration de la profondeur en forage.

Si-Yu Xiao, Xin-Di Zhao, Tian-Hao Mao + 8 more2026-03-03⚡ eess

← Précédent Suivant →