cs.LG articles | Gist.Science

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Cet article propose une approche d'optimisation conjointe des couches de partitionnement et des affectations clients-agrégateurs dans l'apprentissage fédéré fractionné hiérarchique, démontrant par des heuristiques novatrices une amélioration de la précision de 3 % et une réduction de 20 % du délai et de 50 % de la surcharge par rapport aux méthodes de l'état de l'art.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

L'article propose l'Agentic Critical Training (ACT), une méthode d'apprentissage par renforcement qui permet aux agents de développer un raisonnement autonome sur la qualité de leurs actions plutôt que d'imiter des réflexions préconçues, améliorant ainsi significativement leurs performances et leur capacité de généralisation.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Ce papier présente Impermanent, un benchmark en direct évaluant la généralisation temporelle des modèles de prévision de séries temporelles sur des flux de données continus et non stationnaires (basés sur l'activité GitHub), afin de dépasser les limites des évaluations statiques traditionnelles et de mesurer la robustesse face aux changements de distribution dans le temps.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A mixed-frequency approach for exchange rates predictions

Cet article propose une approche basée sur des modèles à fréquences mixtes pour prédire le taux de change CAD/USD, démontrant ainsi son efficacité pour surmonter les limites de l'agrégation temporelle et résoudre le problème de l'imprévisibilité des taux de change.

Raffaele Mattera, Michelangelo Misuraca, Germana Scepi, Maria Spano2026-03-09🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Cet article propose un cadre interprétable basé sur des concepts médicaux clés et un réseau de convolution graphique (GCN) pour expliquer les décisions des classificateurs d'images échographiques fœtales selon la cognition clinique, surmontant ainsi le manque de transparence des réseaux de neurones profonds traditionnels.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Correlations Between COVID-19 and Dengue

Ce papier présente un modèle de corrélation basé sur des réseaux de neurones et des LSTM intégrant des données sur la COVID-19, la dengue et des facteurs externes, démontrant des tendances similaires entre les deux maladies et permettant d'estimer les cas de dengue dans les pays où les données sont insuffisantes.

Paula Bergero, Laura P. Schaposnik, Grace Wang2026-03-09🧬 q-bio

Graph Neural Networks on Factor Graphs for Robust, Fast, and Scalable Linear State Estimation with PMUs

Cet article présente une méthode innovante utilisant des réseaux de neurones à graphes appliqués à des graphes de facteurs pour réaliser une estimation d'état linéaire rapide, évolutive et robuste dans les réseaux de transmission équipés d'unités de mesure phasoriques (PMU), garantissant une précision élevée et une résilience locale face aux défaillances des capteurs.

Ognjen Kundacina, Mirsad Cosovic, Dragisa Miskovic + 1 more2026-03-09⚡ eess

Expert-Aided Causal Discovery of Ancestral Graphs

Cet article présente Ancestral GFlowNet (AGFN), un algorithme d'apprentissage par renforcement qui permet d'inférer la distribution des graphes ancestraux en intégrant de manière itérative des connaissances d'experts incertaines, tant a priori qu'a posteriori, pour affiner la découverte causale en présence de confondants latents.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena Ribeiro2026-03-09🤖 cs.LG

A unified framework for learning with nonlinear model classes from arbitrary linear samples

Cet article propose un cadre unifié pour l'apprentissage d'objets inconnus à partir de mesures linéaires arbitraires via des modèles non linéaires généraux, établissant de nouvelles garanties de généralisation optimales basées sur la variation du modèle et l'intégrale d'entropie, tout en unifiant et en étendant des résultats existants tels que le compressed sensing avec des modèles génératifs.

Ben Adcock, Juan M. Cardenas, Nick Dexter2026-03-09🤖 cs.LG

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Cet article établit des bornes inférieures théoriques pour l'énergie nécessaire à la résolution de problèmes par des optimiseurs neuromorphiques utilisant l'apprentissage en mémoire, en modélisant la thermodynamique hors équilibre de ces systèmes pour en déduire une efficacité énergétique dépendant uniquement du nombre d'opérations, de la taille du modèle, de la vitesse de convergence et de la précision.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty2026-03-09🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Cet article propose un système de détection d'hallucinations visuelles dans les images de personnages de dessins animés générés par IA, utilisant un modèle vision-langage enrichi par des informations de pose et l'apprentissage en contexte pour améliorer significativement la précision par rapport aux méthodes basées uniquement sur les images RVB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

BInD: Bond and Interaction-generating Diffusion Model for Multi-objective Structure-based Drug Design

Le modèle de diffusion BInD, guidé par des connaissances, surmonte les limites des méthodes existantes de conception de médicaments basée sur la structure en générant simultanément des molécules et leurs interactions avec une protéine cible, permettant ainsi d'optimiser de manière équilibrée les objectifs multiples tels que les interactions spécifiques, les propriétés moléculaires et la géométrie locale.

Joongwon Lee, Wonho Zhung, Jisu Seo, Woo Youn Kim2026-03-09🤖 cs.LG

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Cette article présente un pipeline d'apprentissage actif en deux étapes pour la reconnaissance automatique de la parole, combinant le clustering d'x-vectors pour la diversité et une méthode bayésienne basée sur le dropout Monte Carlo pour l'information, afin d'optimiser l'entraînement des modèles avec moins de données étiquetées.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

Predictive Coding Networks and Inference Learning: Tutorial and Survey

Ce travail présente une revue complète et une spécification formelle des réseaux de codage prédictif, un cadre inspiré des neurosciences qui utilise l'apprentissage par inférence comme alternative biologiquement plausible et potentiellement plus efficace à la rétropropagation, tout en offrant une approche unifiée pour l'apprentissage supervisé et génératif.

Björn van Zwol, Ro Jefferson, Egon L. van den Broek2026-03-09🤖 cs.AI

Transforming Agency. On the mode of existence of Large Language Models

Cet article soutient que les grands modèles de langage, bien qu'ils ne possèdent pas d'agence autonome car ils échouent à satisfaire les conditions d'individualité, de normativité et d'asymétrie interactionnelle requises par les théories incarnées de l'esprit, doivent être définis comme des interlocuteurs linguistiques qui, par leur couplage avec les humains, transforment profondément les formes d'agence existantes en produisant des modalités d'agence « intermédiaires » (midtended) dépassant la simple instrumentalité étendue.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Le papier présente PACE, une méthode de fine-tuning efficace en paramètres qui améliore la généralisation des modèles en réduisant les normes des gradients et en assurant la cohérence des modèles via une régularisation par bruit multiplicatif, surpassant ainsi les approches existantes sur diverses tâches visuelles et textuelles.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Le papier présente FALCON, une méthode d'apprentissage auto-supervisé unifiée pour la reconnaissance d'actions par drone, qui surmonte les déséquilibres spatiaux des vidéos aériennes en intégrant un masquage centré sur les objets et une reconstruction du futur à double horizon pour améliorer la précision et la vitesse d'inférence.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Cet article propose une méthode d'apprentissage auto-supervisé basée sur l'auto-cohérence et un réseau léger pour reconstruire efficacement des données sismiques irrégulières sans nécessiter de jeux de données supplémentaires.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Le papier présente Ditto, un cadre de synthèse de têtes parlantes basé sur la diffusion qui permet un contrôle fin et une inférence en temps réel en générant des représentations dans un espace de mouvement spécifique tout en optimisant l'architecture pour résoudre les problèmes de désentanglement et de latence.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

L0-Regularized Quadratic Surface Support Vector Machines

Cet article propose des variantes parcimonieuses des machines à vecteurs de support sur des surfaces quadratiques (QSVM) en imposant une contrainte de cardinalité via la norme $\ell_0$ , et développe un algorithme de décomposition de pénalité efficace pour résoudre ce problème d'optimisation complexe tout en démontrant la supériorité du modèle sur des données de crédit réelles.

Ahmad Mousavi, Ramin Zandvakili, Zheming Gao2026-03-09🤖 cs.LG

← Précédent Suivant →