cs.LG articles | Gist.Science

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

Cet article propose MAcPNN, une approche d'apprentissage mutuel assisté inspirée de la théorie socioculturelle de Vygotsky, qui permet aux appareils IoT autonomes équipés de réseaux de neurones progressifs continus (cPNN) de collaborer de manière dynamique et économe en ressources pour surmonter le dérive conceptuelle et l'oubli dans les flux de données temporelles.

Federico Giannini, Emanuele Della ValleWed, 11 Ma🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Cet article propose une approche axiomatique pour les processus de décision markoviens robustes sur les espaces boréliens, démontrant que l'utilisation d'un ensemble d'ambiguïté basé sur une fonction de distance permet d'obtenir des garanties de performance hors échantillon et des taux de convergence probabilistes que les MDP empiriques standards ne peuvent pas assurer.

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

Le papier propose MAPLE, une nouvelle approche unifiée qui améliore le raisonnement médical des grands modèles de langage en remplaçant le vote majoritaire du renforcement à l'inférence par des récompenses de processus alignées sur l'expertise médicale, garantissant ainsi une précision clinique supérieure aux méthodes actuelles.

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning GuoWed, 11 Ma🤖 cs.LG

Statistical Inference via Generative Models: Flow Matching and Causal Inference

Ce livre réinterprète l'intelligence artificielle générative, en particulier le flow matching, comme un cadre statistique rigoureux pour l'apprentissage non paramétrique de distributions, permettant d'intégrer ces modèles dans l'inférence causale et l'analyse de données manquantes tout en garantissant la validité statistique grâce à des techniques de double apprentissage machine.

Shinto EguchiWed, 11 Ma🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Ce papier propose la Normalized Flow Matching (NFM), une nouvelle méthode qui améliore l'entraînement des modèles de flux en distillant des couplages adaptatifs à partir de modèles de flux normalisés pré-entraînés, surpassant ainsi les approches traditionnelles à couplage indépendant ou optimal.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Cet article propose une mesure de platitude exacte et architecturalement fidèle pour les réseaux de neurones convolutifs, dérivée d'une expression fermée de la trace de l'Hessienne, qui s'avère être un outil robuste pour estimer et comparer les performances de généralisation de ces modèles.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency

Le papier présente CALIPER, une méthode agnostique aux modèles et aux détecteurs qui détermine automatiquement la taille d'échantillon post-dérive suffisante pour une réentraînement stable en exploitant la dépendance d'état des flux de données via une régression locale pondérée.

Ren Fujiwara, Yasuko Matsubara, Yasushi SakuraiWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Le papier présente EPIC, un cadre d'apprentissage scientifique machine distribué guidé par le matériel et la physique qui réduit considérablement la latence et la consommation d'énergie tout en préservant la fidélité physique pour des tâches comme l'inversion de forme d'onde complète.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Le papier présente SCALAR, un cadre bidirectionnel qui couple la planification guidée par les LLM et l'apprentissage par renforcement profond via une bibliothèque de compétences apprise, permettant une itération corrective des spécifications et surpassant les méthodes existantes sur l'environnement Craftax.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia SycaraWed, 11 Ma🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Ce papier présente FlexServe, un système de service LLM rapide et sécurisé pour les appareils mobiles qui surmonte les limitations d'ARM TrustZone grâce à une isolation flexible des ressources (mémoire et NPU), permettant d'accélérer considérablement l'inférence et les flux de travail multi-modèles tout en protégeant les données sensibles.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Le papier propose Sim2Act, un cadre d'apprentissage robuste de la simulation à la décision qui améliore la fiabilité des politiques dans des domaines critiques comme la chaîne d'approvisionnement en combinant une calibration adversaire des erreurs de simulation et une stratégie de perturbation relative de groupe pour stabiliser l'apprentissage sans sacrifier les actions à haut risque et haut rendement.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Ce papier propose une méthode systématique nommée « Quality over Quantity » qui utilise des fonctions d'influence pour identifier et sélectionner automatiquement les démonstrations de haute qualité, améliorant ainsi l'apprentissage par imitation des robots en se concentrant sur la pertinence des données plutôt que sur leur volume.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin LeeWed, 11 Ma🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Cet article propose un cadre innovant de prédiction de fiabilité en ligne pour l'électronique satellitaire, combinant un modèle de dégradation de Wiener avec des effets aléatoires et une corrélation spatiale à une stratégie d'apprentissage actif adaptatif, permettant d'améliorer la précision des prévisions tout en réduisant les besoins en données.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying RenWed, 11 Ma🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

Le papier présente DynaME, un cadre hybride novateur pour la prévision de séries temporelles en ligne qui distingue et traite séparément les dérives récurrentes et émergentes en combinant des experts spécialisés dans les motifs historiques avec un expert généraliste stable, surpassant ainsi les méthodes existantes.

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo YuWed, 11 Ma🤖 cs.LG

Learning Adaptive LLM Decoding

Ce papier propose des adaptateurs de décodage légers entraînés par apprentissage par renforcement qui sélectionnent dynamiquement des stratégies d'échantillonnage au niveau des séquences et des tokens pour optimiser le compromis entre précision et budget de calcul, surpassant ainsi les méthodes statiques sur des tâches de mathématiques et de codage.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya GhaiWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

En vérifiant que les observateurs persistants dans les substrats d'hypergraphes satisfont le théorème du bon régulateur de Conant-Ashby, cet article démontre que l'apprentissage par gradient naturel est la règle d'apprentissage unique admissible et établit un lien théorique entre les cadres de Wolfram et de Vanchurin, tout en soulignant la forte dépendance de certaines prédictions quantiques aux modèles de convergence choisis.

Max ZhuravlevWed, 11 Ma🤖 cs.LG

Exclusive Self Attention

Ce papier présente l'attention exclusive (XSA), une modification simple de l'attention auto-attentive qui améliore la modélisation de séquence des Transformers en restreignant l'attention aux informations orthogonales à la propre valeur du token, surpassant ainsi les performances standards sur des tâches de modélisation du langage.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Cet article propose un cadre d'informatique en bordure de véhicules sémantique assisté par des surfaces intelligentes reconfigurables, utilisant une optimisation hybride basée sur PPO et la programmation linéaire pour réduire la latence de 40 à 50 % par rapport aux méthodes existantes dans des environnements dynamiques.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang FanWed, 11 Ma🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Cette étude démontre que l'intégration de scores de sentiment extraits par un modèle de langage finetuné (Qwen3) à partir de titres d'actualités améliore considérablement la prévision des prix de l'aluminium et la performance des stratégies de trading lors des périodes de forte volatilité, surpassant les modèles basés uniquement sur des données tabulaires.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

← Précédent Suivant →