cs.LG articles | Gist.Science

Understanding and Mitigating Dataset Corruption in LLM Steering

Cette étude examine la robustesse du pilotage contrastif des grands modèles de langage face à la corruption des données, révélant que bien que la méthode résiste à un bruit modéré, des altérations malveillantes peuvent avoir des effets indésirables, lesquels peuvent être atténués en remplaçant le calcul de moyenne standard par un estimateur de moyenne robuste.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables

Cet article propose I-CAM-UV, une méthode innovante qui intègre des graphes causaux issus de multiples jeux de données aux variables non identiques en exploitant les modèles additifs causaux avec variables non observées pour surmonter les limitations des approches existantes face aux facteurs de confusion cachés.

Hirofumi Suzuki, Kentaro Kanamori, Takuya Takagi + 3 more2026-03-04🤖 cs.LG

Shape Derivative-Informed Neural Operators with Application to Risk-Averse Shape Optimization

Ce papier présente Shape-DINO, un cadre d'apprentissage d'opérateurs neuronaux enrichi par des dérivées qui accélère considérablement l'optimisation de forme sous incertitude en apprenant simultanément les solutions d'équations aux dérivées partielles et leurs gradients sur des géométries variables, réduisant ainsi le nombre de résolutions de PDE nécessaires de plusieurs ordres de grandeur.

Xindi Gong, Dingcheng Luo, Thomas O'Leary-Roseberry + 2 more2026-03-04🤖 cs.LG

Stabilized Adaptive Loss and Residual-Based Collocation for Physics-Informed Neural Networks

Cette recherche propose une nouvelle approche combinant un schéma d'équilibrage adaptatif des pertes basé sur les normes de gradient lissées et une méthode de collocation résiduelle adaptative pour surmonter les limitations des réseaux de neurones informés par la physique (PINN) dans les problèmes rigides ou dominés par des chocs, réduisant ainsi considérablement les erreurs relatives L2 sur les équations de Burgers et d'Allen-Cahn.

Divyavardhan Singh, Shubham Kamble, Dimple Sonone + 1 more2026-03-04🤖 cs.AI

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

En adoptant une perspective d'équations différentielles stochastiques, cette étude démontre que les méthodes adaptatives comme DP-SignSGD sont préférables dans les contextes de haute confidentialité car elles conservent des performances robustes et nécessitent un réglage des hyperparamètres minimal, contrairement à DP-SGD dont l'efficacité dépend fortement du niveau de confidentialité.

Enea Monzio Compagnoni, Alessandro Stanghellini, Rustem Islamov + 2 more2026-03-04🤖 cs.LG

Coalgebras for categorical deep learning: Representability and universal approximation

Cet article établit une fondation coalgébrique pour l'apprentissage profond catégoriel en démontrant qu'il est possible de relever les comportements invariants des ensembles de données vers des espaces vectoriels et d'obtenir un théorème d'approximation universelle pour les fonctions équivariantes dans ce cadre généralisé.

Dragan Mašulović2026-03-04🤖 cs.LG

SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

Le papier présente SynthCharge, un générateur paramétrique de problèmes de routage pour véhicules électriques qui crée des instances diversifiées et vérifiées comme réalisables afin de permettre l'évaluation rigoureuse et le benchmarking des modèles d'optimisation basés sur l'apprentissage.

Mertcan Daysalilar, Fuat Uyguroglu, Gabriel Nicolosi + 1 more2026-03-04🤖 cs.AI

Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations

Cette étude propose une règle d'apprentissage inspirée de la neurobiologie qui intègre naturellement des principes tels que la parcimonie et la loi de Dale pour améliorer la robustesse, la généralisation et l'adaptation des réseaux de neurones tout en émergeant des représentations biologiquement plausibles.

Patrick Inoue, Florian Röhrbein, Andreas Knoblauch2026-03-04🤖 cs.LG

The elbow statistic: Multiscale clustering statistical significance

Le papier présente ElbowSig, un cadre statistique novateur qui formalise la méthode du coude pour déterminer le nombre de clusters, permettant ainsi de détecter des structures organisationnelles à plusieurs échelles tout en garantissant un contrôle rigoureux des erreurs de type I.

Francisco J. Perez-Reche2026-03-04📊 stat

On Geometry Regularization in Autoencoder Reduced-Order Models with Latent Neural ODE Dynamics

Cette étude démontre que, dans le cadre de modèles réduits par autoencodeur avec des dynamiques d'ODE neuronales, la projection de Stiefel sur la première couche du décodeur améliore systématiquement la performance des prédictions à long terme, tandis que d'autres régularisations géométriques visant à lisser le décodeur peuvent en réalité nuire à l'apprentissage des dynamiques latentes.

Mikhail Osipov2026-03-04🤖 cs.LG

Speculative Speculative Decoding

Ce papier présente Saguaro, un algorithme de « spéculation spéculative » (SSD) qui parallélise la prédiction et la vérification des tokens pour accélérer l'inférence des modèles de langage jusqu'à deux fois par rapport aux méthodes existantes.

Tanishq Kumar, Tri Dao, Avner May2026-03-04🤖 cs.LG

Physics-informed post-processing of stabilized finite element solutions for transient convection-dominated problems

Cet article présente un cadre de calcul hybride étendant la méthode PINN-Augmented SUPG avec capture de choc (PASSC) aux problèmes transitoires, combinant une méthode des éléments finis stabilisée avec une correction par réseau de neurones appliquée sélectivement près du temps final pour améliorer la précision des solutions de problèmes de transport dominés par la convection.

Süleyman Cengizci, Ömür Uğur, Srinivasan Natesan2026-03-04🤖 cs.LG

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR est une architecture innovante qui permet la reconstruction géométrique 3D dense sur des vidéos extrêmement longues en combinant un traitement par blocs avec une mémoire hybride apprenante, surmontant ainsi les limitations de complexité et de cohérence des modèles existants pour atteindre des performances record sur des séquences de plusieurs milliers de trames.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Gravity Falls: A Comparative Analysis of Domain-Generation Algorithm (DGA) Detection Methods for Mobile Device Spearphishing

Cette étude évalue l'efficacité limitée des détecteurs de DGA traditionnels et d'apprentissage automatique face aux techniques de hameçonnage par SMS (smishing) mobiles, en utilisant le nouveau jeu de données semi-synthétique « Gravity Falls » pour démontrer que les méthodes actuelles peinent à généraliser face à l'évolution des tactiques des attaquants.

Adam Dorian Wong, John D. Hastings2026-03-04🤖 cs.LG

Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

Ce papier présente ATLAS, une approche faiblement supervisée qui génère des trajectoires de mobilité conditionnées par la démographie en combinant des trajectoires individuelles non étiquetées avec des données agrégées régionales et des compositions démographiques, comblant ainsi le manque de données étiquetées tout en améliorant significativement le réalisme démographique des modèles génératifs.

Jessie Z. Li, Zhiqing Hong, Toru Shirakawa + 1 more2026-03-04🤖 cs.LG

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Cet article présente un cadre d'apprentissage en deux étapes pour la manipulation robotique fine, tel que l'épluchage au couteau, qui combine l'apprentissage par imitation et un affinage basé sur les préférences humaines pour atteindre des taux de réussite élevés et une forte généralisation avec peu de données.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant

Cet article propose une variante de gradient quadratique qui améliore l'efficacité et la convergence des algorithmes d'optimisation pour l'entraînement de régression logistique préservant la confidentialité, notamment via l'homomorphisme, en combinant les avantages des méthodes de premier et de second ordre.

John Chiang2026-03-03🤖 cs.LG

Protecting Federated Learning from Extreme Model Poisoning Attacks via Multidimensional Time Series Anomaly Detection

Ce papier présente FLANDERS, un nouveau filtre pré-agrégation pour l'apprentissage fédéré qui détecte les attaques par empoisonnement de modèle à grande échelle en traitant les mises à jour des clients comme une série temporelle multidimensionnelle et en identifiant les anomalies via un modèle de prévision autorégressif matriciel.

Edoardo Gabrielli, Dimitri Belli, Zoe Matrullo + 2 more2026-03-03📊 stat

FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead

Le papier présente FengWu, un système de prévision météorologique mondiale à moyen terme basé sur l'IA qui, grâce à une architecture multi-modale et multi-tâches, dépasse pour la première fois la barre des 10 jours de prévision avec une précision supérieure à celle de GraphCast et un coût d'inférence très faible.

Kang Chen, Tao Han, Junchao Gong + 11 more2026-03-03🤖 cs.AI

FedHB: Hierarchical Bayesian Federated Learning

Les auteurs proposent FedHB, une approche bayésienne hiérarchique pour l'apprentissage fédéré qui préserve la confidentialité des données, englobe des algorithmes existants comme Fed-Avg et Fed-Prox, et garantit une convergence optimale avec une erreur de généralisation asymptotiquement nulle.

Minyoung Kim, Timothy Hospedales2026-03-03📊 stat

← Précédent Suivant →