cs.LG articles | Gist.Science

CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Ce papier présente CARE, un cadre d'agrégation conscient des facteurs de confusion qui améliore l'évaluation des LLM en modélisant explicitement les erreurs corrélées des juges pour isoler la qualité réelle sans étiquettes de vérité terrain, réduisant ainsi les erreurs d'agrégation jusqu'à 26,8 %.

Jitian Zhao, Changho Shin, Tzu-Heng Huang + 2 more2026-03-03📊 stat

Econometric vs. Causal Structure-Learning for Time-Series Policy Decisions: Evidence from the UK COVID-19 Policies

Cette étude compare les performances des méthodes économétriques et de l'apprentissage automatique causal dans la découverte de structures causales à partir de séries temporelles, en utilisant le cas des politiques britanniques contre la COVID-19 pour démontrer que les méthodes économétriques offrent des règles temporelles claires tandis que les algorithmes d'apprentissage automatique permettent une exploration plus large et des graphes plus denses.

Bruno Petrungaro, Anthony C. Constantinou2026-03-03📈 econ

Maximizing the Spectral Energy Gain in Sub-1-Bit LLMs via Latent Geometry Alignment

Le papier présente LittleBit-2, un cadre qui maximise le gain d'énergie spectrale dans les LLMs sous-1-bit grâce à une rotation latente interne et une quantification itérative conjointe, alignant ainsi la géométrie latente sur l'hypercube binaire pour atteindre un état de l'art sans surcoût d'inférence.

Banseok Lee, Youngmin Kim2026-03-03🤖 cs.AI

Reinforcement Learning for Control with Probabilistic Stability Guarantee: A Finite-Sample Approach

Cet article propose une approche d'apprentissage par renforcement, baptisée L-REINFORCE, qui garantit la stabilité probabiliste des systèmes de contrôle à partir d'un nombre fini de données en s'appuyant sur la méthode de Lyapunov et en démontrant son efficacité sur la tâche du Cartpole.

Minghao Han, Lixian Zhang, Chenliang Liu + 3 more2026-03-03🤖 cs.AI

Property-Driven Evaluation of GNN Expressiveness at Scale: Datasets, Framework, and Study

Cet article présente une méthodologie d'évaluation pilotée par les propriétés pour mesurer l'expressivité des réseaux de neurones sur graphes à grande échelle, en utilisant un générateur de données formel et un cadre d'analyse qui révèlent des compromis fondamentaux entre les différentes méthodes de regroupement global.

Sicong Che, Jiayi Yang, Sarfraz Khurshid + 1 more2026-03-03🤖 cs.AI

REMIND: Rethinking Medical High-Modality Learning under Missingness--A Long-Tailed Distribution Perspective

Ce papier propose REMIND, un cadre unifié qui aborde l'apprentissage multimodal médical sous-jacent à des données manquantes en traitant la distribution à longue traîne des combinaisons de modalités via une architecture de mélange d'experts spécialisée par groupe et une optimisation robuste pour améliorer les performances des combinaisons sous-représentées.

Chenwei Wu, Zitao Shuai, Liyue Shen2026-03-03🤖 cs.AI

BiJEPA: Bi-directional Joint Embedding Predictive Architecture for Symmetric Representation Learning

Ce papier propose BiJEPA, une architecture d'apprentissage auto-supervisé bi-directionnelle qui améliore l'apprentissage de représentations symétriques en imposant une régularisation de norme pour garantir une stabilité et une convergence efficaces sur divers types de données.

Yongchao Huang2026-03-03🤖 cs.LG

LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks

Le papier présente LitBench, un outil de benchmarking centré sur les graphes qui permet de créer, d'entraîner et d'évaluer des modèles de langage spécialisés dans le domaine littéraire, démontrant que ces modèles de petite taille peuvent rivaliser avec des modèles d'état de l'art grâce à l'exploitation de sous-graphes de connaissances spécifiques.

Andreas Varvarigos, Ali Maatouk, Jiasheng Zhang + 4 more2026-03-03🤖 cs.AI

Knowledge-guided generative surrogate modeling for high-dimensional design optimization under scarce data

Cet article présente RBF-Gen, un cadre de modélisation par substitut guidé par les connaissances qui intègre efficacement l'expertise métier aux données limitées via un réseau générateur et des fonctions de base radiales, permettant d'obtenir une précision prédictive supérieure pour l'optimisation de la conception mécanique et des procédés de fabrication.

Bingran Wang, Seongha Jeong, Sebastiaan P. C. van Schie + 3 more2026-03-03🤖 cs.AI

Mag-Mamba: Modeling Coupled spatiotemporal Asymmetry for POI Recommendation

Le papier présente Mag-Mamba, un cadre innovant qui résout le défi de l'asymétrie spatio-temporelle couplée dans la recommandation de lieux d'intérêt (POI) en modélisant les transitions comme des dynamiques de rotation pilotées par la phase dans le domaine complexe, grâce à un encodeur de phase magnétique conditionné par le temps et un module Mamba à valeurs complexes.

Zhuoxuan Li, Tangwei Ye, Jieyuan Pei + 6 more2026-03-03🤖 cs.AI

Expert Divergence Learning for MoE-based Language Models

Ce papier présente l'Expert Divergence Learning, une nouvelle stratégie de pré-entraînement qui utilise une perte auxiliaire basée sur la divergence de Jensen-Shannon pour encourager la spécialisation fonctionnelle des experts dans les modèles de type MoE, réduisant ainsi l'homogénéisation et améliorant les performances sans surcoût computationnel significatif.

Jiaang Li, Haibin Chen, Langming Liu + 9 more2026-03-03🤖 cs.AI

M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection

Ce papier présente M3-AD, un cadre unifié et des ressources de données conçus pour améliorer la détection d'anomalies industrielles en intégrant un mécanisme d'auto-correction réflexif au sein des modèles multimodaux de grande taille.

Chao Huang, Yanhui Li, Yunkang Cao + 5 more2026-03-03🤖 cs.AI

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Cette étude démontre que, dans le contexte de la détection du Parkinson prodromique par IRMf avec des données extrêmement limitées, l'évaluation au niveau du sujet révèle une généralisation bien plus fiable des modèles légers comme MobileNet V1 par rapport aux architectures profondes, contrairement aux évaluations au niveau des images qui induisent une fuite d'information et des résultats trompeurs.

Naimur Rahman2026-03-03🤖 cs.LG

The Hidden Costs of Domain Fine-Tuning: Pii-Bearing Data Degrades Safety and Increases Leakage

Cette étude démontre que le fine-tuning de modèles de langage sur des données de domaine contenant des informations personnelles identifiables (PII) compromet gravement leur sécurité en réduisant les refus et en augmentant les fuites de données, même lorsque les requêtes sont hors contexte.

Jayesh Choudhari, Piyush Kumar Singh2026-03-03🤖 cs.LG

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Cet article soutient que les capacités et les propensions des systèmes d'IA sont des propriétés dispositionnelles nécessitant une approche de mesure scientifique rigoureuse, fondée sur la causalité et les contre-factuels, qui contraste avec les pratiques d'évaluation actuelles se limitant souvent à la performance observable.

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis + 2 more2026-03-03🤖 cs.AI

The minimal width of universal $p$ -adic ReLU neural networks

Cet article détermine la largeur minimale requise pour que les réseaux de neurones $p$ -adiques utilisant une fonction d'activation analogue au ReLU possèdent la propriété d'approximation universelle pour les fonctions continues à valeurs dans $\mathbb{Q}_p$ sur des sous-ensembles compacts ouverts, selon les normes $L_q$ et $C_1$ .

Sándor Z. Kiss, Ambrus Pál2026-03-03🤖 cs.LG

A Representation-Consistent Gated Recurrent Framework for Robust Medical Time-Series Classification

Cet article propose un cadre récurrent à portes cohérentes en représentation (RC-GRF) qui, grâce à une stratégie de régularisation novatrice assurant la stabilité temporelle des états cachés, améliore la robustesse et la généralisation des modèles de classification de séries temporelles médicales bruyantes et incomplètes.

Maitri Krishna Sai2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Ce papier propose le cadre Certainty-Validity (CVS) pour évaluer les systèmes à engagement discret, révélant que leur incapacité à dépasser un plafond d'ambiguïté n'est pas un échec mais une fonctionnalité protectrice contre les hallucinations, et plaide pour une optimisation basée sur la validité plutôt que sur la simple précision.

Datorien L. Anderson2026-03-03🤖 cs.LG

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Cette étude révèle que, bien que les grands modèles de langage cliniques reconnaissent systématiquement les préférences des patients, leur capacité à adapter leurs recommandations en conséquence reste limitée, soulignant un écart de sensibilité aux valeurs que des stratégies d'atténuation peuvent partiellement réduire.

Sanjay Basu2026-03-03🤖 cs.AI

High-Resolution Range Profile Classifiers Require Aspect-Angle Awareness

Cet article démontre que l'intégration explicite de l'angle d'aspect dans les classificateurs de profils de portée haute résolution (HRRP) améliore significativement la précision, même lorsque cet angle est estimé en ligne via un filtre de Kalman, validant ainsi une approche plus réaliste et performante.

Edwyn Brient, Santiago Velasco-Forero, Rami Kassab2026-03-03⚡ eess

← Précédent Suivant →

cs.LG