cs.LG articles | Gist.Science

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Cette étude présente le cadre de « red-teaming » dynamique, automatique et systématique (DAS) qui révèle un écart critique entre les performances statiques et la fiabilité réelle des modèles de langage médicaux, démontrant que la majorité des modèles échouent à des tests de stress continus en matière de robustesse, de confidentialité, d'équité et d'hallucinations malgré leurs scores élevés sur les benchmarks traditionnels.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Ce papier présente CauKer, un algorithme novateur combinant la composition de noyaux de processus gaussiens et des modèles causaux structurels pour générer des séries temporelles synthétiques causalement cohérentes, permettant un pré-entraînement efficace en échantillons de modèles de fondation pour la classification de séries temporelles et révélant des lois d'échelle claires absentes des données réelles.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

L'article présente GraphProp, une méthode d'entraînement de modèles de fondation graphiques qui améliore la généralisation inter-domaines en deux phases : d'abord l'apprentissage de représentations structurelles via la prédiction d'invariants de graphes, puis l'intégration de ces représentations comme encodages de position pour affiner les modèles avec des attributs spécifiques aux domaines.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks

Cet article démontre que les mécanismes de porte dans les réseaux de neurones récurrents agissent comme des préconditionneurs de l'optimisation pilotés par les données, en couplant les échelles de temps des états et des paramètres pour générer des taux d'apprentissage effectifs dépendants du délai et de la direction, ce qui explique la robustesse de l'entraînement de ces architectures.

Lorenzo Livi2026-03-10🤖 cs.LG

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Le modèle fondamental ECHO, qui intègre une architecture à bande divisée et des embeddings de position fréquentielle pour traiter des signaux de longueur variable à des taux d'échantillonnage arbitraires, démontre des performances de pointe dans la détection d'anomalies et la classification des défauts sur divers jeux de données de signaux industriels.

Yucong Zhang, Juan Liu, Ming Li2026-03-10🤖 cs.LG

Constraint Learning in Multi-Agent Dynamic Games from Demonstrations of Local Nash Interactions

Cet article présente un algorithme d'apprentissage par jeu dynamique inverse utilisant des programmes linéaires en nombres entiers mixtes pour inférer des contraintes paramétriques à partir de démonstrations d'équilibres de Nash locaux, garantissant théoriquement l'approximation des ensembles sûrs et permettant de concevoir des trajectoires interactives robustes pour des agents à dynamique non linéaire.

Zhouyu Zhang, Chih-Yuan Chiu, Glen Chou2026-03-10🤖 cs.LG

CbLDM: A Diffusion Model for recovering nanostructure from atomic pair distribution function

Cette étude propose un modèle de diffusion latent conditionnel (CbLDM) qui utilise des priors conditionnels et une matrice Laplacienne pour résoudre de manière stable le problème inverse de reconstruction des nanostructures de nanoparticules métalliques à partir de leur fonction de distribution de paires atomiques.

Jiarui Cao, Zhiyang Zhang, Heming Wang, Jun Xu, Ling Lan, Simon J. L. Billinge, Ran Gu2026-03-10🔬 cond-mat.mtrl-sci

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Cet article propose un cadre d'apprentissage unifié combinant un curriculum piloté par l'entropie et un apprentissage multi-tâches pour améliorer la prédiction de la mobilité humaine en organisant l'entraînement du simple au complexe et en intégrant des signaux d'apprentissage auxiliaires pour la distance et la direction, atteignant ainsi des performances de pointe lors du défi HuMob.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Cette étude démontre que les méthodes d'imputation par équations chaînées (MICE) constituent une alternative efficace et plus simple à mettre en œuvre que les réseaux antagonistes génératifs et les autoencodeurs pour la génération de données synthétiques en tarification actuarielle, tout en préservant fidèlement les distributions et les relations multivariées nécessaires à l'entraînement de modèles GLM.

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar2026-03-10🤖 cs.LG

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

Cet article propose une classe de méthodes F²SA- $p$ utilisant des différences finies d'ordre $p$ pour l'optimisation stochastique bi-niveau, améliorant la complexité de recherche d'un point stationnaire à $\tilde{\mathcal{O}}(p \epsilon^{-4-p/2})$ pour des problèmes hautement lisses et démontrant que cette borne est presque optimale.

Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao Zhang2026-03-10🤖 cs.LG

Behavioral Inference at Scale: The Fundamental Asymmetry Between Motivations and Belief Systems

Cette étude démontre une asymétrie fondamentale dans l'inférence comportementale à grande échelle, où les motivations sont déduites avec une précision quasi parfaite (98-100 %) tandis que les systèmes de croyances restent largement indétectables (plafonnant à 49 % même avec des architectures avancées), révélant que la limite de l'inférence réside dans l'ambiguïté structurelle des croyances plutôt que dans les capacités des modèles.

Jason Starace, Terence Soule2026-03-10🤖 cs.LG

Synthetic Homes: An Accessible Multimodal Pipeline for Producing Residential Building Data with Generative AI

Cet article présente un cadre modulaire multimodal utilisant l'intelligence artificielle générative pour produire de manière accessible et réaliste des données synthétiques sur les bâtiments résidentiels à partir d'images publiques, afin de réduire la dépendance aux sources de données coûteuses ou restreintes pour la recherche en simulation énergétique.

Jackson Eshbaugh, Chetan Tiwari, Jorge Silveyra2026-03-10🤖 cs.LG

Physics-Aware Neural Operators for Direct Inversion in 3D Photoacoustic Tomography

Ce papier présente PANO, un opérateur neuronal physique-aware capable d'inverser directement les mesures brutes en images 3D de tomographie photoacoustique avec une haute précision et en temps réel, surpassant les méthodes traditionnelles et facilitant ainsi le passage vers des systèmes cliniques accessibles.

Jiayun Wang, Yousuf Aborahama, Arya Khokhar, Yang Zhang, Chuwei Wang, Karteekeya Sastry, Julius Berner, Yilin Luo, Boris Bonev, Zongyi Li, Kamyar Azizzadenesheli, Lihong V. Wang, Anima Anandkumar2026-03-10🤖 cs.LG

Fast reconstruction of degenerate populations of conductance-based neuron models from spike times

Cet article présente une méthode combinant l'apprentissage profond et les conductances d'entrée dynamiques (DIC) pour reconstruire rapidement et efficacement des populations dégénérées de modèles de neurones à base de conductance à partir uniquement des temps de décharge, en surmontant le défi de l'inférence des paramètres biophysiques malgré la variabilité des canaux ioniques.

Julien Brandoit, Damien Ernst, Guillaume Drion, Arthur Fyon2026-03-10🤖 cs.LG

MICA: Multi-Agent Industrial Coordination Assistant

Le papier présente MICA, un assistant de coordination multi-agents perceptif et vocal conçu pour fournir une assistance industrielle en temps réel, fiable et respectueuse de la vie privée, même dans des environnements aux ressources limitées.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Ce papier présente ORIC, un cadre et une nouvelle évaluation (ORIC-Bench) conçus pour analyser et améliorer la capacité des grands modèles vision-langage à reconnaître des objets dans des contextes incongrus, en démontrant que ces situations augmentent les erreurs d'hallucination et en proposant une méthode d'ajustement fin par renforcement visuel pour y remédier.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Cet article propose une méthode d'apprentissage de fonctions de barrière neuronales conditionnées par l'observation, fondée sur l'analyse de la faisabilité de Hamilton-Jacobi et une architecture de type hyper-réseau, qui garantit des ensembles sûrs optimaux et améliore la sécurité des systèmes autonomes dans des environnements partiellement observables.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

Empirical PAC-Bayes bounds for Markov chains

Cet article présente la première borne PAC-Bayes entièrement empirique pour les chaînes de Markov, obtenue en dérivant une estimation empirique du pseudo-écart spectral pour les espaces d'états finis.

Vahe Karagulyan, Pierre Alquier2026-03-10🤖 cs.LG

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Cette étude démontre que les sondes linéaires utilisées pour surveiller les modèles de langage sont fragiles car leur efficacité dépend fortement de la présence d'indices textuels explicites, leur performance chutant considérablement lorsque ces indices sont filtrés ou absents.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

AEGIS: Authentic Edge Growth In Sparsity for Link Prediction in Edge-Sparse Bipartite Knowledge Graphs

Ce papier présente AEGIS, un cadre d'augmentation basé uniquement sur les arêtes qui améliore la prédiction de liens dans les graphes de connaissances bipartis clairsemés en rééchantillonnant les arêtes existantes ou en utilisant une augmentation sémantique KNN, évitant ainsi la création de fausses connexions tout en préservant l'authenticité des données.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10🤖 cs.LG

← Précédent Suivant →