cs.LG articles | Gist.Science

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Cette étude démontre que le modèle CLIP encode bien les relations d'attribution objet-qualité de manière unimodale, mais que cette information est perdue lors de l'alignement intermodal, un problème que l'on peut résoudre efficacement par une simple transformation linéaire sans réentraînement coûteux.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Topological derivative approach for deep neural network architecture adaptation

Cet article propose une méthode novatrice d'adaptation progressive de l'architecture des réseaux de neurones profonds en profondeur, fondée sur l'utilisation de dérivées topologiques et d'une perspective de contrôle optimal pour déterminer mathématiquement les emplacements optimaux d'insertion de nouvelles couches et leurs initialisations, surpassant ainsi les stratégies d'adaptation existantes sur diverses tâches.

C G Krishnanunni, Tan Bui-Thanh, Clint Dawson2026-03-03🤖 cs.AI

Low-Rank Thinning

Cet article introduit une nouvelle analyse de faible rang pour le minceur sub-Gaussien, garantissant une compression de haute qualité pour toute distribution et tout noyau lorsque les données sont approximativement de faible rang, tout en améliorant les performances dans des applications telles que l'attention des transformateurs et l'entraînement stochastique.

Annabelle Michael Carrell, Albert Gong, Abhishek Shetty + 2 more2026-03-03🤖 cs.LG

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Benchmarking Self-Supervised Learning Methods for Accelerated MRI Reconstruction

Ce papier présente SSIBench, un cadre de benchmarking open-source et modulaire qui évalue systématiquement 18 méthodes d'apprentissage auto-supervisé pour la reconstruction IRM accélérée sans données de référence, révélant la nécessité de recherches supplémentaires et proposant de nouvelles améliorations pour favoriser l'adoption industrielle et la reproductibilité.

Andrew Wang, Steven McDonagh, Mike Davies2026-03-03⚡ eess

MoMa: A Modular Deep Learning Framework for Material Property Prediction

Le papier présente MoMa, un cadre d'apprentissage profond modulaire qui surpasse les méthodes traditionnelles en entraînant des modules spécialisés puis en les composant de manière adaptative pour la prédiction des propriétés des matériaux, offrant ainsi une amélioration moyenne de 14 % sur 17 jeux de données.

Botian Wang, Yawen Ouyang, Yaohui Li + 8 more2026-03-03🔬 cond-mat.mtrl-sci

Predictive AI Can Support Human Learning while Preserving Error Diversity

Cette étude démontre que le déploiement de l'IA prédictive à la fois pendant la formation et la pratique des novices en médecine améliore non seulement leur précision diagnostique individuelle, mais préserve également la diversité des erreurs, renforçant ainsi la fiabilité des décisions collectives.

Vivianna Fang He, Sihan Li, Phanish Puranam + 1 more2026-03-03🤖 cs.AI

GradientStabilizer:Fix the Norm, Not the Gradient

Le papier présente GradientStabilizer, une méthode légère qui remplace la magnitude des gradients par une estimation statistiquement stabilisée tout en préservant leur direction, éliminant ainsi les pics d'instabilité et surpassant le clipping traditionnel dans divers scénarios d'apprentissage profond.

Tianjin Huang, Zhangyang Wang, Haotian Hu + 10 more2026-03-03🤖 cs.AI

Generalizable deep learning for photoplethysmography-based blood pressure estimation -- A Benchmarking Study

Cette étude de benchmarking évalue la capacité de généralisation de cinq modèles d'apprentissage profond pour l'estimation de la pression artérielle à partir de PPG, révélant une baisse significative des performances sur des données externes et soulignant l'importance cruciale de l'adaptation de domaine pour surmonter les disparités de distribution entre les jeux de données.

Mohammad Moulaeifard, Peter H. Charlton, Nils Strodthoff2026-03-03⚡ eess

Machine-learning for photoplethysmography analysis: Benchmarking feature, image, and signal-based approaches

Cette étude de benchmark démontre que les réseaux de neurones convolutifs modernes traitant directement les signaux bruts de photopléthysmographie surpassent les approches basées sur des caractéristiques ou des images pour la prédiction de la pression artérielle et de la fibrillation auriculaire.

Mohammad Moulaeifard, Loic Coquelin, Mantas Rinkevičius + 13 more2026-03-03⚡ eess

Does Generation Require Memorization? Creative Diffusion Models using Ambient Diffusion

Cet article propose une méthode fondée sur des preuves théoriques, consistant à entraîner des modèles de diffusion uniquement sur des données bruitées à grande échelle, permettant ainsi de réduire significativement la mémorisation du jeu d'entraînement sans compromettre la qualité de génération des images.

Kulin Shah, Alkis Kalavasis, Adam R. Klivans + 1 more2026-03-03🤖 cs.LG

A Randomized Linearly Convergent Frank-Wolfe-type Method for Smooth Convex Minimization over the Spectrahedron

Cet article propose la première variante de la méthode de Frank-Wolfe garantissant une convergence linéaire en espérance et indépendante de la dimension pour la minimisation de fonctions convexes lisses sur le spectrahèdre, tout en n'utilisant que des calculs matriciels de rang un.

Dan Garber2026-03-03🔢 math

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

Effective and Efficient Masked Image Generation Models

Ce papier présente eMIGM, un modèle unifié de génération d'images masquées qui, grâce à une exploration rigoureuse de l'espace de conception, surpasse des modèles de référence comme VAR et EDM2 sur ImageNet tout en nécessitant moins de calculs.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing

Cette étude révèle que la plupart des articles SIGIR 2022 sur les systèmes de recommandation basés sur le passage de messages souffrent de pratiques erronées, d'incohérences entre les artefacts et les descriptions, et de comparaisons biaisées, rendant leurs résultats et leurs affirmations de progrès non reproductibles et non validés.

Maurizio Ferrari Dacrema, Michael Benigni, Nicola Ferro2026-03-03🤖 cs.LG

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Cet article démontre théoriquement et valide empiriquement que la prédiction du prochain token permet aux grands modèles de langage d'apprendre des concepts latents interprétables par l'humain, dont les représentations correspondent approximativement aux logarithmes des probabilités a posteriori de ces concepts.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Cet article présente un cadre d'évaluation multi-objectif, agnostique et disponible publiquement, conçu pour analyser et visualiser les compromis entre utilité et équité dans les systèmes d'apprentissage automatique, en mettant particulièrement l'accent sur leur application critique dans le domaine de l'imagerie médicale.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

A Benchmark Dataset for Machine Learning Surrogates of Pore-Scale CO2-Water Interaction

Cet article présente un ensemble de données de référence composé de 624 échantillons 2D haute résolution issus de simulations numériques, conçu pour entraîner et évaluer des modèles d'apprentissage automatique simulant les interactions poreuses entre le CO2 et l'eau dans le contexte du stockage géologique.

Alhasan Abdellatif, Hannah P. Menke, Julien Maes + 2 more2026-03-03🤖 cs.LG

← Précédent Suivant →