cs.LG articles | Gist.Science

Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback

Ce papier propose le cadre LoCo-RLHF, qui intègre des informations contextuelles via une structure de faible rang et une politique pessimiste dans un sous-espace réduit pour surmonter l'hétérogénéité des retours humains et les décalages de distribution dans l'apprentissage par renforcement à partir de feedback humain.

Seong Jin Lee, Will Wei Sun, Yufeng Liu2026-03-05🤖 cs.LG

Difficult Examples Hurt Unsupervised Contrastive Learning: A Theoretical Perspective

Cet article démontre théoriquement et empiriquement que la suppression des exemples difficiles améliore les performances de l'apprentissage contrastif non supervisé en renforçant ses bornes de généralisation, contrairement à ce qui est observé en apprentissage supervisé.

Yi-Ge Zhang, Jingyi Cui, Qiran Li + 1 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Cette étude révèle et caractérise le phénomène de « fuite de préférences », une forme de contamination systémique où les modèles de langage utilisés comme juges présentent un biais envers les modèles qu'ils ont générés ou qui leur sont apparentés, compromettant ainsi la fiabilité des évaluations et de la synthèse de données.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Ce papier présente MIKASA, un benchmark complet et unifié incluant des tâches de manipulation robotique, conçu pour évaluer et faire progresser les capacités de mémoire des agents d'apprentissage par renforcement face à des tâches complexes.

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Cet article présente le jeu de données UNB StepUP-P150, une base de données publique de haute résolution contenant plus de 200 000 empreintes plantaires issues de 150 individus marchant à différentes vitesses et avec divers types de chaussures, conçue pour favoriser les avancées en reconnaissance biométrique de la démarche, en biomécanique et en apprentissage profond.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Cet article présente Implicit U-KAN 2.0, une nouvelle architecture de segmentation d'images médicales basée sur des équations différentielles neuronales d'ordre deux et des couches MultiKAN, qui améliore l'interprétabilité, la performance théorique et l'efficacité computationnelle par rapport aux méthodes existantes.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Leveraging Taxonomy Similarity for Next Activity Prediction in Patient Treatment

Cet article propose l'approche TS4NAP, qui exploite les taxonomies médicales et la correspondance de graphes pour améliorer l'exactitude et l'explicabilité de la prédiction de la prochaine étape de traitement des patients, en surmontant les défis liés à la variabilité et à la rareté des données cliniques.

Martin Kuhn, Joscha Grüger, Tobias Geyer + 1 more2026-03-05🤖 cs.AI

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Cette étude propose une analyse à grande échelle de neuf dimensions de qualité au-delà de la simple précision pour les modèles de classification d'images, révélant l'impact des paradigmes d'entraînement et des architectures, et introduisant le score QUBA pour évaluer et classer ces modèles de manière holistique.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Generating Fine Details of Entity Interactions

Ce papier propose un nouveau jeu de données axé sur les interactions et une méthode d'affinement par décomposition assistée par des modèles de langage multimodaux pour améliorer la génération d'images text-to-image riches en interactions complexes entre objets.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Ce papier présente PinRec, un modèle de récupération générative à échelle industrielle développé par Pinterest qui utilise une génération conditionnée par les résultats et multi-jetons pour équilibrer efficacement les performances, la diversité et l'efficacité tout en s'alignant sur les objectifs commerciaux.

Prabhat Agarwal, Anirudhan Badrinath, Laksh Bhasin + 4 more2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Cet article présente N2M-RSI, un modèle formel minimal démontrant que, dès qu'un agent IA intègre ses propres sorties comme données d'entraînement au-delà d'un seuil d'intégration informationnelle, sa complexité interne croît sans limite, un phénomène qui s'amplifie dans des essaims d'agents communicants.

Rintaro Ando2026-03-05🤖 cs.AI

Akkumula: Evidence accumulation driver models with Spiking Neural Networks

Cet article présente Akkumula, un cadre de modélisation basé sur des réseaux de neurones à impulsions qui améliore la réalisme des modèles de conduite en simulant l'accumulation de preuves pour reproduire avec précision les actions des conducteurs tout en restant adaptable et transparent.

Alberto Morando2026-03-05🤖 cs.LG

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Cette étude présente PubHealthBench, un nouveau benchmark de plus de 8000 questions évaluant la connaissance des modèles de langage (LLM) sur les informations de santé publique du Royaume-Uni, révélant que bien que les modèles propriétaires les plus récents surpassent les humains en questions à choix multiples, leurs performances en réponses libres nécessitent encore des garde-fous supplémentaires.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Emotion-Gradient Metacognitive RSI (Part I): Theoretical Foundations and Single-Agent Architecture

Cet article présente les fondements théoriques et l'architecture d'un agent unique du cadre EG-MRSI, qui intègre la métacognition introspective, une motivation intrinsèque basée sur les émotions et une auto-amélioration récursive pour permettre une modification formellement sécurisée de ses propres algorithmes d'apprentissage.

Rintaro Ando2026-03-05🤖 cs.AI

Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Cet article propose un cadre novateur d'apprentissage de représentations non supervisé basé sur la minimisation du risque invariant, introduisant les méthodes PICA et VIAE pour extraire des facteurs latents invariants sans accès aux étiquettes.

Yotam Norman, Ron Meir2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

TSPulse: Tiny Pre-Trained Models with Disentangled Representations for Rapid Time-Series Analysis

TSPulse est une famille de modèles pré-entraînés ultra-légers dotés de représentations désenchevêtrées (temporelles, spectrales et sémantiques) qui surpassent des modèles bien plus volumineux sur diverses tâches de diagnostic de séries temporelles tout en permettant un déploiement sans GPU.

Vijay Ekambaram, Subodh Kumar, Arindam Jati + 5 more2026-03-05🤖 cs.AI

Optimal Best-Arm Identification under Fixed Confidence with Multiple Optima

Cet article propose une borne inférieure informationnelle plus serrée et un algorithme modifié de type Track-and-Stop qui, en exploitant la connaissance préalable du nombre de bras optimaux, garantissent une identification asymptotiquement optimale dans le cadre de l'identification de bras sous confiance fixe.

Lan V. Truong2026-03-05🤖 cs.LG

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Cet article propose une méthode simple et rapide appelée « Feature Mixing » pour la synthèse d'anomalies multimodales, accompagnée d'un nouveau jeu de données nommé CARLA-OOD, afin d'améliorer la détection et la segmentation des données hors distribution avec des performances de pointe et une accélération significative.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Cet article analyse les propriétés de convergence et les dynamiques d'échappement de la descente de gradient stochastique dans des paysages unidimensionnels, en démontrant comment les caractéristiques du bruit et la géométrie du paysage influencent les échelles de temps de convergence vers les minima locaux et les probabilités d'échappement des maxima locaux.

Dmitry Dudukalov, Artem Logachov, Vladimir Lotov + 3 more2026-03-05🤖 cs.LG

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

← Précédent Suivant →