cs.LG articles | Gist.Science

Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO

Cette étude propose un cadre d'apprentissage par curriculum en trois étapes, combinant un masquage structurel et l'optimisation par politique de groupe relative (GRPO), pour distiller efficacement le raisonnement par chaîne de pensée dans des modèles compacts, permettant ainsi d'améliorer la précision tout en réduisant la longueur des réponses.

Bowen Yu, Maolin Wang, Sheng Zhang + 7 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard est un cadre novateur utilisant des transformateurs sensibles à la topologie et des mécanismes de confidentialité différentielle pour permettre une recherche d'identité résiliente aux biais et conforme à la protection des données à travers des réseaux de caméras urbaines distribuées.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

Cet article présente RA-QA, un nouveau système d'évaluation standardisé qui harmonise des données publiques pour créer un ensemble de 9 millions de paires question-réponse multimodales, permettant de mesurer les performances et les limites des modèles d'IA dans le contexte hétérogène du monde réel du diagnostic respiratoire.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

Ce papier propose cc-Shapley, une méthode modifiant les valeurs de Shapley conventionnelles en intégrant la structure causale des données pour éliminer les associations fallacieuses (comme le biais de collier) et fournir une interprétation correcte de l'importance des caractéristiques multivariées.

Jörg Martin, Stefan Haufe2026-03-06💻 cs

On Imbalanced Regression with Hoeffding Trees

Cet article propose une extension de l'estimation de densité par noyaux (KDE) et une intégration du rétrécissement hiérarchique (HS) aux arbres de Hoeffding pour la régression déséquilibrée en flux, démontrant par des évaluations empiriques que la KDE améliore systématiquement les performances en début de flux tandis que le HS offre des gains limités.

Pantia-Marina Alchirch, Dimitrios I. Diochnos2026-03-06💻 cs

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Le papier présente Zatom-1, le premier modèle fondamental open-source unifié qui combine l'apprentissage génératif et prédictif pour les molécules et matériaux 3D, surpassant les modèles spécialisés tout en réduisant considérablement le temps d'inférence.

Alex Morehead, Miruna Cretu, Antonia Panescu + 14 more2026-03-06🔬 cond-mat.mtrl-sci

Regularized Online RLHF with Generalized Bilinear Preferences

Cet article propose une méthode d'apprentissage par renforcement à partir de préférences humaines en ligne régularisée, fondée sur un modèle de préférences bilinéaires généralisées, qui établit pour la première fois des garanties d'efficacité statistique en haute dimension avec des bornes de regret indépendantes de la dimension ou de la force de régularisation.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Ce papier présente Lap2, une nouvelle méthode qui permet d'utiliser le mécanisme de Laplace dans le DP-SGD pour les modèles de grande dimension en remplaçant le clipping L1 par un clipping L2 via la théorie de la majoration, améliorant ainsi considérablement les performances par rapport aux approches classiques.

Meisam Mohammady, Qin Yang, Nicholas Stout, Ayesha Samreen, Han Wang, Christopher J Quinn, Yuan Hong2026-03-06🔒 cs.CR

Inference-time optimization for experiment-grounded protein ensemble generation

Cet article présente un cadre d'optimisation au moment de l'inférence qui génère des ensembles protéiques conformes aux données expérimentales en optimisant les représentations latentes et en combinant des priors structurels et physiques, surpassant ainsi les méthodes actuelles tout en révélant une vulnérabilité des métriques de confiance des modèles génératifs.

Advaith Maddipatla, Anar Rzayev, Marco Pegoraro + 5 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Le papier présente JAILBREAK FOUNDRY, un système multi-agents qui automatise la traduction des articles de recherche sur les jailbreaks en modules exécutables pour permettre une évaluation reproductible et standardisée des vulnérabilités des grands modèles de langage.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Le papier présente DiffusionHarmonizer, un cadre d'amélioration générative en ligne qui transforme les rendus de scènes imparfaites issus de la reconstruction neuronale en sorties photoréalistes et temporellement cohérentes grâce à un amplificateur conditionné par le temps dérivé d'un modèle de diffusion préentraîné.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

Ce papier présente Aurchestra, le premier système permettant un contrôle fin et en temps réel des paysages sonores sur des appareils auditifs contraints, grâce à une interface dynamique et un réseau d'extraction multi-sorties qui génère des flux audio séparés pour jusqu'à cinq sources sonores simultanées afin de permettre un mélange personnalisé de l'environnement acoustique.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Cette étude démontre que la persistance de l'état de l'interpréteur est une sémantique fondamentale qui façonne l'efficacité et la stabilité des agents LLM, révélant que l'alignement entre les données d'entraînement et l'environnement d'exécution est crucial pour éviter des coûts de tokens excessifs ou des erreurs d'exécution.

Victor May, Aaditya Salgarkar, Yishan Wang + 2 more2026-03-06💻 cs

Learn Hard Problems During RL with Reference Guided Fine-tuning

Ce papier présente ReGFT, une méthode de fine-tuning guidé par des références qui synthétise des trajectoires de raisonnement positives à partir de solutions humaines partielles pour surmonter la rareté des récompenses et améliorer l'apprentissage par renforcement en mathématiques.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Cet article présente VoxKnesset, un ensemble de données ouvert et longitudinal de 2 300 heures de discours parlementaire hébreu couvrant 15 ans, conçu pour modéliser les changements vocaux liés au vieillissement et évaluer la robustesse des systèmes de reconnaissance vocale face au vieillissement des locuteurs.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

MatRIS: Toward Reliable and Efficient Pretrained Machine Learning Interatomic Potentials

Le papier présente MatRIS, un potentiel interatomique invariant basé sur l'attention qui, grâce à une complexité linéaire, atteint une précision comparable aux modèles équivariants les plus performants tout en réduisant considérablement les coûts de calcul.

Yuanchang Zhou, Siyu Hu, Xiangyu Zhang + 3 more2026-03-06💻 cs

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Cet article propose un cadre de prédiction conforme pour les sorties graphiques, garantissant une couverture distributionnelle sans hypothèse grâce à l'utilisation de la distance Z-Gromov-Wasserstein et d'une extension de la régression quantile pour générer des ensembles de prédiction adaptatifs.

Gabriel Melo, Thibaut de Saivre, Anna Calissano + 1 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Ce papier présente IoUCert, un cadre de vérification formelle innovant qui permet pour la première fois de garantir la robustesse de détecteurs d'objets ancrés réalistes, tels que SSD et YOLO, en contournant les limitations des relaxations non linéaires grâce à une transformation de coordonnées et une propagation de bornes par intervalles optimisée pour les métriques d'IoU.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Ce papier propose une construction incrémentale de graphes $k$ -NN qui garantit par conception la connectivité du graphe, permettant ainsi d'améliorer la robustesse du clustering spectral sur des embeddings textuels, en particulier dans les régimes de faible $k$ où les graphes standards deviennent disjoints.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

Inverse Reconstruction of Shock Time Series from Shock Response Spectrum Curves using Machine Learning

Cet article propose l'utilisation d'un auto-encodeur variationnel conditionnel (CVAE) pour reconstruire efficacement et avec une grande fidélité spectrale les séries temporelles d'accélération à partir de spectres de réponse au choc, surmontant ainsi les limitations des méthodes d'optimisation itérative traditionnelles en termes de coût computationnel et de flexibilité.

Adam Watts, Andrew Jeon, Destry Newton + 1 more2026-03-06💻 cs

← Précédent Suivant →