cs.LG articles | Gist.Science

GNN For Muon Particle Momentum estimation

Cet article démontre que l'utilisation de réseaux de neurones graphiques (GNN) pour estimer la quantité de mouvement des muons dans l'expérience CMS du LHC surpasse les modèles traditionnels comme TabNet, tout en soulignant l'importance cruciale de la dimension des caractéristiques des nœuds pour l'efficacité du modèle.

Vishak K Bhat, Eric A. F. Reinhardt, Sergei Gleyzer2026-03-10🤖 cs.LG

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Cette étude propose un modèle hybride de classification combinant l'apprentissage par quelques exemples (FSL) et l'intelligence artificielle explicable (XAI) pour identifier avec précision et transparence les maladies des feuilles de maïs, de riz et de blé, même avec des données annotées limitées.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Cet article propose PRPO, une méthode d'optimisation de politique relative parallèle, et MCDR-Bench, une nouvelle plateforme d'évaluation, pour surmonter les limitations actuelles des modèles LVLMs dans l'analyse approfondie de graphiques en résolvant les conflits d'entraînement et en permettant une évaluation objective des capacités de raisonnement complexe.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

One step further with Monte-Carlo sampler to guide diffusion better

Cette proposition introduit une stratégie plug-and-play combinant une étape de débruitage inverse supplémentaire et un échantillonnage Monte-Carlo (ABMS) pour réduire les erreurs d'estimation des gradients et améliorer la qualité de la génération guidée dans les modèles de diffusion basés sur les équations différentielles stochastiques.

Minsi Ren, Wenhao Deng, Ruiqi Feng, Tailin Wu2026-03-10🤖 cs.LG

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Cet article présente une nouvelle méthode d'apprentissage non supervisé combinant filtrage convolutif et réseaux de neurones pour reconstruire avec une haute résolution les images de faisceaux d'ions bruitées dans les accélérateurs de particules, permettant ainsi une détection inédite des structures de halo au-delà de sept écarts-types sans nécessiter de jeux de données d'entraînement.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Ce papier propose la régularisation d'équivariance douce (SER), une méthode plug-in qui découple l'apprentissage de l'invariance et de l'équivariance en appliquant cette dernière à une carte de tokens intermédiaire, améliorant ainsi les performances de l'apprentissage auto-supervisé sur la reconnaissance d'images, la robustesse aux perturbations géométriques et la détection d'objets sans nécessiter de prédictions de transformation ni d'augmenter significativement le coût computationnel.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

On the Generalization Capacities of MLLMs for Spatial Intelligence

Ce papier propose un cadre d'IA multimodale conscient des paramètres de la caméra pour surmonter les limites de généralisation des modèles actuels en désenchevêtrant les propriétés physiques des objets de la perspective d'acquisition, permettant ainsi un raisonnement spatial 3D robuste et généralisable.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Cette étude démontre que l'application de la régression quantile conformée aux modèles d'apprentissage profond pour la prédiction des éruptions solaires améliore significativement la fiabilité des prévisions en fournissant des intervalles de confiance plus précis et mieux couverts que les méthodes alternatives.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

L'article présente ATLAS, un cadre de finetuning par renforcement qui permet aux petits modèles de langage d'opérer efficacement dans de vastes écosystèmes d'outils en apprenant à contrôler le contexte et à structurer l'exécution, surpassant ainsi les approches génériques pour atteindre des performances proches de l'état de l'art avec des budgets limités.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Cet article présente un pipeline intégré combinant génération de haute fidélité et audit automatisé par intelligence artificielle pour produire des trajectoires de patients synthétiques cliniquement cohérentes et sécurisées, permettant ainsi de surmonter les limites de confidentialité des données de santé tout en préservant leur utilité pour la recherche.

Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri2026-03-10🤖 cs.LG

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Le papier présente ProtAlign, un cadre d'apprentissage contrastif qui aligne les séquences et les structures protéiques dans un espace d'incorporation partagé pour améliorer la récupération croisée, les tâches de prédiction en aval et l'interprétabilité des relations séquence-structure.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Cet article présente un cadre de fusion à rétroaction bidirectionnelle qui intègre les comportements humains et les facteurs environnementaux pour améliorer la précision et l'interprétabilité des prévisions de qualité de l'air intérieur (CO2 et PM2.5) dans les bâtiments intelligents.

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Ce papier propose FutureBoosting, une approche hybride innovante qui améliore la prévision des prix de l'électricité en intégrant les prédictions de modèles fondation temporels figés dans un modèle de régression, surpassant ainsi les méthodes actuelles avec une réduction de l'erreur moyenne absolue de plus de 30 %.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Le papier présente le « Safe Transformer », une approche modulaire qui améliore la sécurité et l'interprétabilité des modèles de langage en insérant un bit de sécurité explicite et contrôlable entre les couches du transformateur, permettant ainsi de séparer clairement les décisions de refus des contenus générés tout en maintenant des performances élevées face aux attaques.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Le papier présente Orion, le premier système open source permettant l'entraînement et l'inférence de grands modèles de langage directement sur le Neural Engine d'Apple en contournant CoreML, en caractérisant ses contraintes matérielles et en optimisant le temps de compilation pour accélérer l'entraînement de 3,8 fois.

Ramchand Kumaresan2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Ce papier propose une approche d'apprentissage par renforcement pour la navigation en foule dense qui généralise à des densités non vues lors de l'entraînement grâce à un codage d'observation invariant à la densité et à un entraînement randomisé, permettant ainsi d'éviter les collisions et les blocages tout en surpassant les méthodes existantes.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Le papier présente PolyBlocks, une infrastructure de compilation modulaire basée sur MLIR pour les frameworks d'IA et les puces spécialisées, qui génère automatiquement du code haute performance grâce à des pipelines de transformations et des modèles de coût analytiques, démontrant des résultats compétitifs avec les solutions existantes comme Torch Inductor et XLA sur les GPU NVIDIA.

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Ce papier présente le cadre Calibrated Credit Intelligence (CCI), une approche de notation du risque de crédit qui combine des réseaux de neurones bayésiens, un gradient boosting contraint par l'équité et une fusion adaptative aux changements de distribution pour garantir des prédictions précises, bien calibrées et équitables dans des environnements de déploiement réels.

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Ce papier propose le Rank-factorized Implicit Neural Bias (RIB), une méthode qui remplace le biais de position relatif pour permettre l'utilisation de FlashAttention dans les Transformers de super-résolution, permettant ainsi d'augmenter considérablement la taille des fenêtres d'attention et d'améliorer les performances tout en réduisant les temps d'entraînement et d'inférence.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

Ce papier présente un cadre de diffusion décentralisé hétérogène efficace qui permet d'entraîner des experts avec des objectifs variés (DDPM et Flow Matching) sur des ressources réduites, tout en assurant une convergence rapide et une qualité supérieure grâce à une conversion déterministe à l'inférence et à une architecture optimisée.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

← Précédent Suivant →