cs.LG articles | Gist.Science

EVMbench: Evaluating AI Agents on Smart Contract Security

Ce papier présente EVMbench, une nouvelle méthode d'évaluation mesurant la capacité des agents IA à détecter, corriger et exploiter des vulnérabilités dans des contrats intelligents, révélant qu'ils sont déjà capables d'attaquer des instances de blockchain réelles de bout en bout.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Le papier présente BandPO, une méthode d'optimisation par renforcement pour les grands modèles de langage qui remplace le mécanisme de clipping fixe par des bornes dynamiques et conscientes des probabilités afin de résoudre les goulots d'étranglement d'exploration et de prévenir l'effondrement de l'entropie.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Semantic Communication-Enhanced Split Federated Learning for Vehicular Networks: Architecture, Challenges, and Case Study

Cet article propose le cadre SC-USFL, qui intègre la communication sémantique à l'apprentissage fédéré fractionné pour réduire la surcharge de communication et renforcer la confidentialité des étiquettes dans les réseaux véhiculaires grâce à une compression adaptative des informations pertinentes.

Lu Yu, Zheng Chang, Ying-Chang Liang2026-03-06🤖 cs.LG

Person Detection and Tracking from an Overhead Crane LiDAR

Cet article présente la création d'un jeu de données spécifique pour la détection et le suivi de personnes à l'aide d'un LiDAR monté sur une grue aérienne, en adaptant des détecteurs 3D existants pour combler le fossé entre les benchmarks de conduite et la vision industrielle en vue plongeante, tout en validant la faisabilité temps réel et en rendant les ressources disponibles publiquement.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

$\nabla$ -Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Ce papier présente $\nabla$ -Reasoner, un cadre de génération itératif qui intègre une optimisation différentiable des logits de tokens via la descente de gradient en temps d'inférence pour améliorer le raisonnement des grands modèles de langage, offrant ainsi une alternative efficace aux méthodes de recherche discrète existantes.

Peihao Wang, Ruisi Cai, Zhen Wang + 4 more2026-03-06🤖 cs.LG

TimeWarp: Evaluating Web Agents by Revisiting the Past

Ce papier présente TimeWarp, un benchmark évaluant la robustesse des agents web face aux évolutions de l'interface, et propose TimeTraj, un algorithme utilisant la distillation de plans sur plusieurs versions d'interface pour améliorer significativement leurs performances.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

Cette étude démontre que les modèles basés sur l'architecture Transformer, couplés à une régression évidentielle pour la quantification de l'incertitude, offrent les prévisions de glycémie les plus précises et les mieux calibrées pour la gestion du diabète de type 1.

Hai Siong Tan2026-03-06✓ Author reviewed ⓘ🔬 physics

WaterSIC: information-theoretically (near) optimal linear layer quantization

Ce papier propose WaterSIC, un algorithme d'optimisation de la quantification des couches linéaires inspiré du « waterfilling » qui, en allouant dynamiquement des taux de quantification variables, atteint une performance quasi optimale théoriquement et établit de nouveaux états de l'art pour les modèles Llama et Qwen.

Egor Lifar, Semyon Savkin, Or Ordentlich + 1 more2026-03-06🔢 math

Replaying pre-training data improves fine-tuning

Cette étude démontre que la réutilisation des données de pré-entraînement générique lors du fine-tuning améliore significativement l'efficacité des données et les performances des modèles sur des tâches cibles spécifiques, même dans des domaines peu liés.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Ce papier présente MOUE, une généralisation des modèles Mixture-of-Experts qui introduit une « largeur virtuelle » en réutilisant un pool d'experts universels à travers les couches, surmontant ainsi les limites d'échelle traditionnelles grâce à une topologie en rotation décalée, un équilibrage de charge adapté à la profondeur et un routeur universel, ce qui permet d'obtenir des performances supérieures aux modèles MoE classiques.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Cet article propose une nouvelle méthode de fusion de grands modèles de langage qui, en formulant le problème comme le calcul d'une moyenne de Karcher sur la variété de Fisher-Rao, surmonte les limitations des approches euclidiennes traditionnelles pour préserver la fonctionnalité et éviter l'effondrement des représentations lors de la combinaison de plusieurs experts.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

Lightweight and Scalable Transfer Learning Framework for Load Disaggregation

Ce papier présente RefQuery, un cadre d'apprentissage par transfert léger et évolutif pour la désagrégation de charge qui utilise des empreintes d'appareils compactes et un réseau préentraîné figé pour permettre une adaptation efficace aux nouvelles maisons avec peu de données, rendant ainsi le déploiement temps réel possible sur des appareils à ressources limitées.

L. E. Garcia-Marrero, G. Petrone, E. Monmasson2026-03-06🤖 cs.LG

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Cet article propose un cadre d'apprentissage par renforcement multi-opérateurs intégrant la théorie du choix discret pour optimiser conjointement la tarification et le rééquilibrage des flottes dans des systèmes de mobilité autonome compétitifs, démontrant que la concurrence modifie fondamentalement les stratégies apprises tout en assurant la convergence vers des politiques efficaces.

Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli + 1 more2026-03-06🤖 cs.LG

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Cet article propose une interprétation du phénomène de stabilité à la limite (Edge of Stability) via la lissité directionnelle généralisée aux normes non-euclidiennes, démontrant que ce comportement d'oscillation autour du seuil de stabilité s'applique à une large gamme d'optimiseurs au-delà de la descente de gradient classique.

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Cet article propose BA-Logic, une nouvelle méthode d'attaque par porte dérobée à étiquettes propres qui contrecarre les échecs des approches existantes en empoisonnant la logique interne de prédiction des réseaux de neurones graphiques pour forcer la classification de nœuds déclencheurs vers une classe cible sans modifier leurs étiquettes d'entraînement.

Yuxiang Zhang, Bin Ma, Enyan Dai2026-03-06🤖 cs.AI

Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems

Cet article présente le CIES, un indice mathématique mesurant la stabilité des explications des modèles d'IA pour évaluer la fiabilité des systèmes d'aide à la décision commerciale face aux perturbations réalistes des données.

Alin-Gabriel Vaduva, Simona-Vasilica Oprea, Adela Bara2026-03-06🤖 cs.AI

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Le papier présente RepoLaunch, le premier agent capable d'automatiser entièrement la compilation, la gestion des dépendances et l'exécution des tests pour des dépôts de code sur n'importe quelle langue et plateforme, permettant ainsi la création d'ensembles de données pour l'ingénierie logicielle avec une intervention humaine minimale.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Good-Enough LLM Obfuscation (GELO)

GELO est un protocole d'obfuscation léger pour les grands modèles de langage qui préserve la confidentialité des invites en masquant les états cachés avec un mélange inversible par lot, permettant ainsi d'équilibrer la sécurité contre les attaques d'observation mémoire et la latence d'inférence.

Anatoly Belikov, Ilya Fedotov2026-03-06🔒 cs.CR

MCEL: Margin-Based Cross-Entropy Loss for Error-Tolerant Quantized Neural Networks

Ce papier propose MCEL, une nouvelle fonction de perte basée sur les marges qui améliore significativement la tolérance aux erreurs de bits des réseaux de neurones quantifiés sans recourir à l'injection d'erreurs coûteuse lors de l'entraînement.

Mikail Yayla, Akash Kumar2026-03-06🤖 cs.LG

Asymptotic Behavior of Multi--Task Learning: Implicit Regularization and Double Descent Effects

Cette étude analyse asymptotiquement l'apprentissage multi-tâches pour démontrer que la combinaison de tâches liées équivaut à une régularisation implicite améliorant la généralisation et atténuant le phénomène de double descente.

Ayed M. Alrashdi, Oussama Dhifallah, Houssem Sifaou2026-03-06🔢 math

← Précédent Suivant →

cs.LG