cs.LG articles | Gist.Science

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Dans le cadre de la compétition NLBSE'26, l'outil LoRA-MME propose un ensemble de quatre encodeurs transformateurs adaptés via LoRA pour la classification multi-label de commentaires de code, obtenant de solides performances sémantiques mais révélant un compromis défavorable entre précision et efficacité d'inférence dû à son coût computationnel élevé.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Cette étude démontre que l'alignement linguistique, via une méthode novatrice appelée « Semantic Anchoring », permet de surmonter l'effondrement sémantique et d'améliorer la généralisation des modèles de fondation en pathologie computationnelle entre les espèces et les types de cancer, en réorientant les caractéristiques visuelles sans nécessiter de réentraînement complet.

Ekansh Arora2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Ce papier présente DynaKV, un cadre d'entraînement postérieur innovant qui alloue dynamiquement des taux de compression spécifiques à chaque token pour réduire efficacement la mémoire du cache KV des modèles de langage tout en préservant une haute qualité de génération.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

Les auteurs proposent FreST Loss, une nouvelle fonction de perte basée sur la transformée de Fourier conjointe qui améliore la prévision spatio-temporelle en alignant les prédictions sur le spectre spatio-temporel global pour mieux capturer les dépendances complexes et réduire les biais d'estimation.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Cette étude démontre que les modèles vision-langage calculent les affordances de manière fortement dépendante du contexte, révélant une dérive massive des prédictions selon les personas agissants et suggérant une projection ontologique dynamique pour la robotique plutôt qu'une modélisation statique du monde.

Murad Farzulla2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Cette étude propose une nouvelle approche basée sur les réseaux de neurones profonds, nommée EINNs, qui inverse le processus traditionnel en utilisant les états d'équilibre pour inférer les paramètres du système, permettant ainsi de détecter efficacement les seuils critiques et les bifurcations dans les systèmes dynamiques complexes.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

L'article propose FedEMA-Distill, une méthode de distillation de connaissances guidée par une moyenne mobile exponentielle qui améliore la robustesse et l'efficacité des communications de l'apprentissage fédéré face aux données hétérogènes et aux attaques malveillantes en n'exigeant que l'envoi de logits compressés depuis les clients.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Cette étude empirique démontre que l'échec de la mise à l'échelle de l'entraînement distribué sur GPU est souvent causé par des effets de réseau et de topologie négligés, tels que la congestion et la localité, qui dominent les performances réelles et masquent les véritables goulots d'étranglement.

Dinesh Gopalan, Ratul Ali2026-03-06💻 cs

Data-Driven Optimization of Multi-Generational Cellular Networks: A Performance Classification Framework for Strategic Infrastructure Management

En analysant un jeu de données OpenCelliD de 1 818 antennes cellulaires, cette étude propose un cadre de classification des performances pour optimiser la gestion stratégique des réseaux multi-générations, identifier les zones de congestion et guider les investissements en infrastructure LTE, notamment au Pakistan.

Maryam Sabahat, M. Umar Khan2026-03-06💻 cs

Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes

Le papier présente Delta-Crosscoder, une méthode améliorée de diffage de modèles qui surpasse les approches existantes pour isoler et atténuer les changements de comportement localisés dans des régimes d'affinage étroits en combinant la parcimonie BatchTopK avec une fonction de perte basée sur les deltas et un signal contrastif implicite.

Aly Kassem, Thomas Jiralerspong, Negar Rostamzadeh + 1 more2026-03-06💻 cs

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

Ce papier propose une méthode d'attention asymétrique réduisant la dimension des clés et des requêtes pour diminuer la taille du cache KV, démontrant que cette compression permet d'économiser jusqu'à 75 % d'espace mémoire avec une perte de qualité négligeable grâce à un léger ajustement des paramètres.

Hengshuai Yao, Guan Wang2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Ce papier présente une méthode de persistance des caches KV en quantification 4 bits sur disque pour les systèmes multi-agents LLM sur appareils embarqués, permettant de restaurer directement l'état d'attention et de réduire considérablement le temps de génération tout en économisant la mémoire.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

Le papier présente Flowers, une architecture neuronale innovante pour la résolution d'équations aux dérivées partielles (EDP) qui, en se basant exclusivement sur des opérations de déformation (warps) multi-têtes sans attention ni convolution, atteint des performances supérieures aux modèles existants tout en garantissant une complexité linéaire et une efficacité computationnelle accrue.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

Le papier présente SOLID, un cadre de diffusion spatiotemporelle conditionné par des masques qui apprend la dynamique des champs physiques à partir de seules observations éparses, permettant une reconstruction complète avec des incertitudes calibrées sans nécessiter de données denses ni de pré-imputation.

Kevin Valencia, Xihaier Luo, Shinjae Yoo + 1 more2026-03-06💻 cs

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Cet article propose un mécanisme d'enchères ascendantes couplé à l'apprentissage par renforcement profond pour allouer dynamiquement des surfaces intelligentes reconfigurables (RIS) entre des stations de base, permettant ainsi d'optimiser le compromis entre coût et performance spectrale dans les réseaux sans fil multi-cellules.

Martin Mark Zan, Stefan Schwarz2026-03-06💻 cs

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Ce papier présente ZorBA, un cadre de fine-tuning fédéré pour les grands modèles de langage qui utilise l'optimisation d'ordre zéro et une activation hétérogène de blocs pour réduire significativement l'usage de la VRAM et les coûts de communication tout en accélérant la convergence.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Cet article propose ASFL, un cadre d'apprentissage fédéré fractionné adaptatif qui optimise conjointement la répartition du modèle et l'allocation des ressources pour réduire considérablement la latence et la consommation d'énergie tout en accélérant la convergence.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Le papier propose CogGen, une approche de génération profonde entièrement non supervisée pour la reconstruction d'IRM échantillonnée de manière compressive qui améliore la fidélité et la convergence en régulant la charge cognitive via un apprentissage par curriculum qui hiérarchise progressivement la difficulté des données d'entraînement.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

Explainable Regime Aware Investing

Ce papier présente un cadre d'investissement explicable et adaptatif basé sur un modèle de Markov caché de Wasserstein qui, en identifiant dynamiquement les régimes de marché, permet d'optimiser la construction de portefeuille avec des performances ajustées au risque supérieures et une réduction significative des pertes par rapport aux stratégies de référence.

Amine Boukardagha2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Ce papier présente AMV-L, un cadre de gestion de mémoire pour agents LLM à longue durée de vie qui remplace les politiques de rétention basées sur l'âge par une gestion de cycle de vie pilotée par la valeur, permettant ainsi de borner la taille de l'ensemble de travail de récupération et de réduire considérablement la latence extrême tout en maintenant la qualité des réponses.

Emmanuel Bamidele2026-03-06💻 cs

← Précédent Suivant →