cs.LG articles | Gist.Science

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

L'article présente AOI, un cadre multi-agents entraînable qui transforme les trajectoires d'échec en signaux d'apprentissage pour l'automatisation du diagnostic cloud, en surmontant les contraintes de sécurité et de confidentialité des données grâce à une architecture d'exécution séparée et à l'optimisation GRPO, dépassant ainsi les performances de l'état de l'art sur le benchmark AIOpsLab.

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations

Le papier présente RADAR, un cadre neuronal évolutif qui améliore la résolution des problèmes de routage de véhicules asymétriques en utilisant la décomposition en valeurs singulières pour des embeddings statiques et une normalisation de Sinkhorn pour une attention dynamique, surpassant ainsi les méthodes existantes en généralisation et en performance.

Hang Yi, Ziwei Huang, Yining Ma + 1 more2026-03-06💻 cs

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

Le papier présente Stratum, une infrastructure système unifiée conçue pour accélérer la recherche de pipelines ML par des agents autonomes en découplant l'exécution de la planification et en compilant des lots de pipelines pour une exécution optimisée sur des backends hétérogènes, notamment un nouveau runtime en Rust, permettant ainsi d'atteindre des gains de performance allant jusqu'à 16,6 fois par rapport aux écosystèmes Python traditionnels.

Arnab Phani, Elias Strauss, Sebastian Schelter2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Ce papier établit un lien fondamental entre la parallélisabilité des réseaux de neurones récurrents linéaires (LRNN) et les classes de complexité computationnelle, démontrant que leur structure permet une exécution efficace similaire aux transformateurs, contrairement aux RNN non linéaires qui, en raison de leur capacité à résoudre des problèmes P-complets, posent une barrière théorique à une telle parallélisation.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Les auteurs proposent un cadre de traduction non apparié basé sur le pont de Schrödinger neuronal, enrichi par une correspondance de distribution guidée par diffusion et une régularisation de préservation anatomique, pour améliorer la qualité et le réalisme des images IRM cérébrales à très bas champ (64 mT) en les rapprochant de celles à 3 T.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Dans le cadre de la compétition NLBSE'26, l'outil LoRA-MME propose un ensemble de quatre encodeurs transformateurs adaptés via LoRA pour la classification multi-label de commentaires de code, obtenant de solides performances sémantiques mais révélant un compromis défavorable entre précision et efficacité d'inférence dû à son coût computationnel élevé.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Cette étude démontre que l'alignement linguistique, via une méthode novatrice appelée « Semantic Anchoring », permet de surmonter l'effondrement sémantique et d'améliorer la généralisation des modèles de fondation en pathologie computationnelle entre les espèces et les types de cancer, en réorientant les caractéristiques visuelles sans nécessiter de réentraînement complet.

Ekansh Arora2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Ce papier présente DynaKV, un cadre d'entraînement postérieur innovant qui alloue dynamiquement des taux de compression spécifiques à chaque token pour réduire efficacement la mémoire du cache KV des modèles de langage tout en préservant une haute qualité de génération.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

Les auteurs proposent FreST Loss, une nouvelle fonction de perte basée sur la transformée de Fourier conjointe qui améliore la prévision spatio-temporelle en alignant les prédictions sur le spectre spatio-temporel global pour mieux capturer les dépendances complexes et réduire les biais d'estimation.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Cette étude démontre que les modèles vision-langage calculent les affordances de manière fortement dépendante du contexte, révélant une dérive massive des prédictions selon les personas agissants et suggérant une projection ontologique dynamique pour la robotique plutôt qu'une modélisation statique du monde.

Murad Farzulla2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Cette étude propose une nouvelle approche basée sur les réseaux de neurones profonds, nommée EINNs, qui inverse le processus traditionnel en utilisant les états d'équilibre pour inférer les paramètres du système, permettant ainsi de détecter efficacement les seuils critiques et les bifurcations dans les systèmes dynamiques complexes.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

L'article propose FedEMA-Distill, une méthode de distillation de connaissances guidée par une moyenne mobile exponentielle qui améliore la robustesse et l'efficacité des communications de l'apprentissage fédéré face aux données hétérogènes et aux attaques malveillantes en n'exigeant que l'envoi de logits compressés depuis les clients.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Cette étude empirique démontre que l'échec de la mise à l'échelle de l'entraînement distribué sur GPU est souvent causé par des effets de réseau et de topologie négligés, tels que la congestion et la localité, qui dominent les performances réelles et masquent les véritables goulots d'étranglement.

Dinesh Gopalan, Ratul Ali2026-03-06💻 cs

Data-Driven Optimization of Multi-Generational Cellular Networks: A Performance Classification Framework for Strategic Infrastructure Management

En analysant un jeu de données OpenCelliD de 1 818 antennes cellulaires, cette étude propose un cadre de classification des performances pour optimiser la gestion stratégique des réseaux multi-générations, identifier les zones de congestion et guider les investissements en infrastructure LTE, notamment au Pakistan.

Maryam Sabahat, M. Umar Khan2026-03-06💻 cs

Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes

Le papier présente Delta-Crosscoder, une méthode améliorée de diffage de modèles qui surpasse les approches existantes pour isoler et atténuer les changements de comportement localisés dans des régimes d'affinage étroits en combinant la parcimonie BatchTopK avec une fonction de perte basée sur les deltas et un signal contrastif implicite.

Aly Kassem, Thomas Jiralerspong, Negar Rostamzadeh + 1 more2026-03-06💻 cs

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

Ce papier propose une méthode d'attention asymétrique réduisant la dimension des clés et des requêtes pour diminuer la taille du cache KV, démontrant que cette compression permet d'économiser jusqu'à 75 % d'espace mémoire avec une perte de qualité négligeable grâce à un léger ajustement des paramètres.

Hengshuai Yao, Guan Wang2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Ce papier présente une méthode de persistance des caches KV en quantification 4 bits sur disque pour les systèmes multi-agents LLM sur appareils embarqués, permettant de restaurer directement l'état d'attention et de réduire considérablement le temps de génération tout en économisant la mémoire.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

Le papier présente Flowers, une architecture neuronale innovante pour la résolution d'équations aux dérivées partielles (EDP) qui, en se basant exclusivement sur des opérations de déformation (warps) multi-têtes sans attention ni convolution, atteint des performances supérieures aux modèles existants tout en garantissant une complexité linéaire et une efficacité computationnelle accrue.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

Le papier présente SOLID, un cadre de diffusion spatiotemporelle conditionné par des masques qui apprend la dynamique des champs physiques à partir de seules observations éparses, permettant une reconstruction complète avec des incertitudes calibrées sans nécessiter de données denses ni de pré-imputation.

Kevin Valencia, Xihaier Luo, Shinjae Yoo + 1 more2026-03-06💻 cs

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Cet article propose un mécanisme d'enchères ascendantes couplé à l'apprentissage par renforcement profond pour allouer dynamiquement des surfaces intelligentes reconfigurables (RIS) entre des stations de base, permettant ainsi d'optimiser le compromis entre coût et performance spectrale dans les réseaux sans fil multi-cellules.

Martin Mark Zan, Stefan Schwarz2026-03-06💻 cs

← Précédent Suivant →