cs.LG articles | Gist.Science

SPARLING: Learning Latent Representations with Extremely Sparse Activations

Ce papier présente SPARLING, un algorithme qui prouve la théorème d'identifiabilité des motifs latents extrêmement clairsemés et permet de les localiser avec précision (> 90 % de réussite) en se basant uniquement sur la réduction de l'erreur globale, sans nécessiter l'identifiabilité des paramètres du modèle.

Kavi Gupta, Osbert Bastani, Armando Solar-Lezama2026-03-04🤖 cs.LG

Verifying the Robustness of Automatic Credibility Assessment

Cette étude évalue la vulnérabilité des classificateurs de texte, en particulier des grands modèles de langage, face aux attaques par exemples adversariaux dans le cadre de la détection de désinformation, et introduit le benchmark BODEGA pour simuler des scénarios réels de modération de contenu.

Piotr Przybyła, Alexander Shvets, Horacio Saggion2026-03-04💬 cs.CL

(Un)fair devices: Moving beyond AI accuracy in personal sensing

Cet article de revue met en évidence les biais cachés affectant les modèles d'apprentissage automatique dans les dispositifs de détection personnels et plaide pour un passage d'une évaluation axée sur la performance à une approche centrée sur l'humain, accompagnée de directives pour concevoir des systèmes d'IA équitables.

Sofia Yfantidou, Marios Constantinides, Dimitris Spathis + 3 more2026-03-04🤖 cs.LG

A Normal Map-Based Proximal Stochastic Gradient Method: Convergence and Identification Properties

Cet article propose une variante simple du méthode de gradient stochastique proximal basée sur la carte normale de Robinson, démontrant sa convergence globale et sa capacité à identifier presque sûrement les variétés actives en temps fini dans un cadre non convexe général.

Junwen Qiu, Li Jiang, Andre Milzarek2026-03-04🤖 cs.LG

Dynamic Deep-Reinforcement-Learning Algorithm in Partially Observable Markov Decision Processes

Cette étude propose trois nouvelles architectures d'apprentissage par renforcement profond pour les processus de décision markoviens partiellement observables, démontrant que l'intégration des trajectoires d'actions dans les réseaux LSTM et l'utilisation d'états cachés pour entraîner le critique (comme dans l'algorithme H-TD3) améliorent à la fois la performance et l'efficacité computationnelle.

Saki Omi, Hyo-Sang Shin, Namhoon Cho + 1 more2026-03-04🤖 cs.LG

Predictive Authoring for Brazilian Portuguese Augmentative and Alternative Communication

Cette étude propose l'utilisation de BERTimbau pour prédire des pictogrammes dans les systèmes de communication alternative et augmentée pour le portugais brésilien, démontrant que la représentation des pictogrammes par leurs légendes, synonymes ou définitions offre des performances comparables, avec une précision optimale obtenue via les légendes.

Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin + 1 more2026-03-04🤖 cs.AI

Making informed decisions in cutting tool maintenance in milling: A KNN-based model agnostic approach

Cette étude propose une approche de maintenance des outils de fraisage basée sur un modèle KNN interprétable qui, en analysant les signaux de force en temps réel, permet non seulement de détecter l'usure des outils mais aussi de fournir des explications transparentes sur les décisions de maintenance.

Revati M. Wahul, Aditya M. Rahalkar, Om M. Khare + 2 more2026-03-04🤖 cs.LG

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Cette étude présente le développement de BodoBERT, le premier modèle de langage pour le bodo, et d'un taggeur de parties du discours basé sur l'apprentissage profond qui atteint un score F1 de 0,8041, comblant ainsi un vide majeur dans le traitement automatique des langues pour les langues à ressources limitées de la région.

Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi + 1 more2026-03-04🤖 cs.AI

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Cette étude présente une méthode d'estimation de la proportion de textes modifiés par des modèles de langage dans les relectures de conférences d'IA, révélant que 6,5 % à 16,9 % de ces relectures (ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023) auraient été substantiellement altérées par l'IA, avec une corrélation observée entre l'usage de ces outils et des facteurs tels que la faible confiance, la proximité des délais et la réticence à répondre aux répliques des auteurs.

Weixin Liang, Zachary Izzo, Yaohui Zhang + 9 more2026-03-04🤖 cs.AI

Topic-Based Watermarks for Large Language Models

Cet article propose un schéma de filigrane léger et guidé par le sujet pour les grands modèles de langage, qui partitionne le vocabulaire en sous-ensembles sémantiques pour intégrer des marques robustes tout en préservant la qualité du texte et en évitant des intégrations complexes.

Alexander Nemecek, Yuzhou Jiang, Erman Ayday2026-03-04💬 cs.CL

Accelerating Ensemble Error Bar Prediction with Single Models Fits

Cet article propose une méthode flexible pour estimer les incertitudes de prédiction en ajustant un modèle unique sur les données d'erreur d'un ensemble, permettant ainsi d'obtenir des barres d'erreur comparables à celles des ensembles tout en réduisant considérablement le coût computationnel lors de l'inférence.

Vidit Agrawal, Shixin Zhang, Lane E. Schultz + 1 more2026-03-04🔬 cond-mat.mtrl-sci

Absolute abstraction: a renormalisation group approach

En adoptant une approche de groupe de renormalisation, cet article démontre que l'abstraction absolue dans les réseaux de neurones dépend non seulement de la profondeur, mais aussi de l'étendue des données d'entraînement, convergeant vers un modèle de fonctionnalité hiérarchique lorsque ces deux facteurs augmentent.

Carlo Orientale Caputo, Elias Seiffert, Enrico Frausin + 1 more2026-03-04🧬 q-bio

Learning Lagrangian Interaction Dynamics with Sampling-Based Model Order Reduction

Le papier présente GIOROM, un cadre de réduction d'ordre basé sur l'échantillonnage qui apprend la dynamique des interactions lagrangiennes directement dans l'espace physique via des opérateurs neuronaux et un noyau paramétrable, permettant ainsi de simuler efficacement des systèmes complexes comme les fluides et les milieux granulaires avec une réduction significative de la dimensionnalité tout en conservant une haute fidélité.

Hrishikesh Viswanath, Yue Chang, Aleksey Panas + 3 more2026-03-04🤖 cs.LG

Proper losses regret at least 1/2-order

Cet article démontre que la stricte propreté d'une fonction de perte est à la fois nécessaire et suffisante pour obtenir une borne non triviale sur le regret, et résout une question ouverte en établissant que la convergence en norme $p$ ne peut dépasser un ordre de $1/2$ par rapport au regret de substitution pour une large classe de fonctions de perte.

Han Bao, Asuka Takatsu2026-03-04📊 stat

BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models

Cet article présente BA-LoRA, une méthode d'adaptation à faible rang qui atténue l'héritage catastrophique des biais dans les grands modèles de langage en intégrant des régularisateurs de cohérence, de diversité et de décomposition SVD pour améliorer la robustesse et l'équité.

Yupeng Chang, Yi Chang, Yuan Wu2026-03-04💬 cs.CL

Quantifying User Coherence: A Unified Framework for Analyzing Recommender Systems Across Domains

Cet article propose un cadre unifié basé sur des mesures informationnelles de la surprise moyenne et de la surprise conditionnelle moyenne pour quantifier la cohérence des utilisateurs, démontrant ainsi que la performance des systèmes de recommandation dépend fortement de cette cohérence et permettant une évaluation stratifiée ainsi qu'une conception ciblée de modèles plus efficaces.

Michaël Soumm, Alexandre Fournier-Montgieux, Adrian Popescu + 1 more2026-03-04🤖 cs.LG

Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression

Cet article comble une lacune dans la littérature en établissant des bornes supérieures et inférieures serrées pour les nombres de couverture des réseaux de neurones ReLU profonds, permettant ainsi de mieux comprendre l'impact de l'élagage et de la quantification, d'éliminer un facteur logarithmique superflu dans la complexité d'échantillonnage pour la régression non paramétrique, et d'unifier les résultats sur l'approximation fonctionnelle et l'estimation statistique.

Weigutian Ou, Helmut Bölcskei2026-03-04📊 stat

Prediction of Multiscale Features Using Deep Learning-based Preconditioner-Solver Architecture for Darcy Equation in High-Contrast Media

Cet article présente le FP-HMsNet, une architecture de réseau neuronal hiérarchique combinant des opérateurs de Fourier et des réseaux multi-échelles pour prédire avec une grande précision et une efficacité computationnelle supérieure les écoulements de fluides dans des milieux poreux hétérogènes à fort contraste.

Jie Chen, Peiqi Li, Zhengkang He + 1 more2026-03-04🤖 cs.LG

Few-shot Model Extraction Attacks against Sequential Recommender Systems

Cette étude propose un cadre novateur d'extraction de modèle en peu d'exemples contre les systèmes de recommandation séquentiels, combinant une stratégie d'augmentation générative autorégressive et un processus de distillation assisté par une perte de réparation bidirectionnelle pour construire des modèles substituts performants à partir de données limitées.

Hui Zhang, Fu Liu2026-03-04🤖 cs.LG

Combinatorial Rising Bandits

Cet article présente le cadre des Bandits Combinatoires Croissants (CRB) pour modéliser les récompenses croissantes interdépendantes, ainsi que l'algorithme CRUCB qui offre des garanties théoriques de regret serré et des performances empiriques solides dans divers environnements réalistes.

Seockbean Song, Youngsik Yoon, Siwei Wang + 2 more2026-03-04📊 stat

← Précédent Suivant →