cs.LG articles | Gist.Science

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Cet article remet en cause la pertinence du benchmark MedCalc-Bench en révélant des erreurs dans ses implémentations, en démontrant que l'accès aux spécifications des calculateurs (« open-book ») permet d'atteindre des performances supérieures à celles des systèmes à apprentissage par renforcement, et en concluant que ce benchmark évalue principalement la mémorisation de formules et la précision arithmétique plutôt que le raisonnement clinique.

Artus Krohn-Grimberghe2026-03-04🤖 cs.AI

Characterizing and Predicting Wildfire Evacuation Behavior: A Dual-Stage ML Approach

En intégrant des méthodes d'apprentissage automatique non supervisé et supervisé à une vaste enquête menée auprès de résidents de la Californie, du Colorado et de l'Oregon, cette étude identifie des typologies comportementales distinctes liées à l'évacuation des incendies de forêt et démontre que, si le mode de transport peut être prédit avec fiabilité à partir des caractéristiques des ménages, le moment de l'évacuation reste difficile à classifier en raison de sa dépendance aux conditions dynamiques du feu.

Sazzad Bin Bashar Polock, Anandi Dutta, Subasish Das2026-03-04🤖 cs.AI

Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation

Cet article établit une théorie géométrique démontrant que l'oubli catastrophique dans l'adaptation à faible rang (LoRA) est régi par les angles entre les sous-espaces des gradients, révélant une invariance approximative vis-à-vis du rang lorsque ces sous-espaces sont suffisamment orthogonaux.

Brady Steele2026-03-04🤖 cs.LG

Scaling Reward Modeling without Human Supervision

Cette étude démontre la faisabilité et l'efficacité d'une approche de modélisation des récompenses entièrement non supervisée, utilisant des préférences apprises à partir de corpus web massifs pour améliorer les performances en mathématiques et la sécurité des modèles, surpassant ou égalant les méthodes supervisées traditionnelles sans nécessiter d'annotations humaines coûteuses.

Jingxuan Fan, Yueying Li, Zhenting Qi + 4 more2026-03-04🤖 cs.LG

Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

Ce papier présente les suRNNs, une architecture de réseaux de neurones récurrents non linéaires qui utilise des commutateurs binaires au niveau des neurones pour mettre à jour sélectivement la mémoire uniquement lors d'événements informatifs, permettant ainsi de modéliser efficacement des séquences à long terme avec une performance comparable aux Transformers tout en conservant une efficacité computationnelle supérieure.

Bojian Yin, Shurong Wang, Haoyu Tan + 3 more2026-03-04🤖 cs.LG

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Ce papier démontre que l'apprentissage de portes d'attention parcimonieuses est inefficace car les projections Q/K/V s'adaptent au masquage imposé, un phénomène de « routage absorbé » qui rend les portes aléatoires aussi performantes que les portes apprises et favorise ainsi les approches post-hoc.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Neural Paging: Learning Context Management Policies for Turing-Complete Agents

Cet article présente Neural Paging, une architecture hiérarchique qui résout le goulot d'étranglement de la fenêtre de contexte des agents LLM en découplant le raisonnement symbolique de la gestion des ressources via un contrôleur de pages apprenant à approximer l'optimalité de Belady, réduisant ainsi la complexité asymptotique du raisonnement à long terme de $O(N^2)$ à $O(N \cdot K^2)$ .

Liang Chen, Qi Liu2026-03-04🤖 cs.AI

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Cette étude révèle que, contrairement aux attentes, l'entraînement à la sécurité persiste lors d'un optimisation ultérieure de l'utilité chez les agents LLM, et que toutes les configurations d'entraînement convergent vers une frontière de Pareto linéaire sans parvenir à une stratégie optimale combinant les deux objectifs.

Benjamin Plaut2026-03-04💬 cs.CL

Generalized Discrete Diffusion with Self-Correction

Cet article présente le modèle SCDD, une approche de diffusion discrète généralisée qui reformule l'auto-correction préentraînée via des transitions d'état explicites en temps discret, permettant un décodage parallèle plus efficace tout en préservant la qualité de génération.

Linxuan Wang, Ziyi Wang, Yikun Bai + 3 more2026-03-04🤖 cs.AI

Physics-Informed Neural Networks with Architectural Physics Embedding for Large-Scale Wave Field Reconstruction

Cet article présente une architecture de réseaux de neurones intégrant physiquement (PE-PINN) qui, en incorporant des principes physiques directement dans la structure du modèle via une nouvelle couche de transformation d'enveloppe, surpasse les méthodes traditionnelles et les PINNs standards en offrant une reconstruction de champs d'ondes à grande échelle avec une convergence dix fois plus rapide et une réduction de plusieurs ordres de grandeur de l'utilisation mémoire.

Huiwen Zhang, Feng Ye, Chu Ma2026-03-04🤖 cs.AI

Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Cet article propose un cadre théorique fondé sur la régression ordinale pour le modelage de récompenses, permettant d'exploiter efficacement les préférences humaines graduelles (échelle de Likert) en apprenant des paramètres de seuil directement à partir des données, surpassant ainsi les méthodes heuristiques actuelles basées sur des modèles binaires.

Amirhossein Afsharrad, Ruida Zhou, Luca Viano + 2 more2026-03-04🤖 cs.AI

Adaptive Personalized Federated Learning via Multi-task Averaging of Kernel Mean Embeddings

Cet article propose une nouvelle approche d'apprentissage fédéré personnalisé qui détermine automatiquement les poids de collaboration entre agents en estimant des noyaux de moyennes, garantissant ainsi des performances statistiques optimales sans connaissance préalable de l'hétérogénéité des données.

Jean-Baptiste Fermanian, Batiste Le Bars, Aurélien Bellet2026-03-04🤖 cs.AI

Talking with Verifiers: Automatic Specification Generation for Neural Network Verification

Ce papier présente un cadre novateur qui permet de générer automatiquement des spécifications formelles à partir de descriptions en langage naturel, élargissant ainsi considérablement l'applicabilité des outils de vérification de réseaux de neurones à des exigences sémantiques de haut niveau.

Yizhak Y. Elboher, Reuven Peleg, Zhouxing Shi + 2 more2026-03-04🤖 cs.AI

CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

Cet article présente CUDABench, un benchmark complet évaluant la capacité des modèles de langage à générer du code CUDA à partir de texte, en utilisant une nouvelle métrique de performance basée sur le roofline et une pipeline de vérification pour révéler les écarts entre la compilation réussie et la correction fonctionnelle.

Jiace Zhu, Wentao Chen, Qi Fan + 6 more2026-03-04🤖 cs.AI

Concept Heterogeneity-aware Representation Steering

Ce papier propose CHaRS, une méthode de pilotage des représentations qui améliore le contrôle des grands modèles de langage en modélisant l'hétérogénéité conceptuelle via le transport optimal et en générant des vecteurs de pilotage dynamiques adaptés à chaque entrée, surpassant ainsi les approches globales traditionnelles.

Laziz U. Abdullaev, Noelle Y. L. Wong, Ryan T. Z. Lee + 3 more2026-03-04🤖 cs.AI

Length Generalization Bounds for Transformers

Cet article résout le problème de la calculabilité des bornes de généralisation en longueur pour les transformateurs en démontrant l'inexistence de telles bornes calculables pour la classe CRASP (déjà à deux couches), tout en établissant une borne calculable optimale exponentielle pour son fragment positif équivalent aux transformateurs à précision fixe.

Andy Yang, Pascal Bergsträßer, Georg Zetzsche + 2 more2026-03-04🤖 cs.LG

OnDA: On-device Channel Pruning for Efficient Personalized Keyword Spotting

Ce papier propose OnDA, une méthode innovante couplant l'adaptation des poids et l'élagage structuré en ligne des canaux pour réaliser une reconnaissance de mots-clés personnalisée et efficace sur appareil, permettant jusqu'à 9,63 fois de compression du modèle et des améliorations significatives de latence et de consommation énergétique.

Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari2026-03-04⚡ eess

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Le papier présente HELIOS, un modèle innovant qui améliore la récupération table-texte en harmonisant la fusion précoce et tardive avec le raisonnement des LLM pour surmonter les limites des approches existantes et atteindre des performances record sur le benchmark OTT-QA.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

En analysant la géométrie des représentations du modèle de traduction NLLB-200, cette étude démontre que celui-ci a appris à la fois la structure généalogique des langues et des associations conceptuelles universelles, révélant ainsi une organisation sémantique neutre par rapport à la langue qui rappelle les hubs neuronaux du cerveau humain.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety

Ce papier présente l'Alignement Flywheel, une architecture hybride multi-agents centrée sur la gouvernance qui découple la génération de décisions de la supervision de la sécurité pour permettre des mises à jour de sécurité localisées et auditable sans nécessiter le retrait ou le réentraînement des composants décisionnels autonomes sous-jacents.

Elias Malomgré, Pieter Simoens2026-03-04🤖 cs.LG

← Précédent Suivant →