cs.LG articles | Gist.Science

An Interpretable Generative Framework for Anomaly Detection in High-Dimensional Financial Time Series

Ce papier présente ReGEN-TAD, un cadre génératif interprétable qui combine prévision conjointe et reconstruction dans une architecture convolutionnelle-transformer pour détecter les anomalies dans les séries temporelles financières multidimensionnelles sans données étiquetées, tout en fournissant une attribution économique cohérente.

Waldyn G Martinez2026-03-10🤖 cs.LG

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Cet article présente un pipeline de préhension guidé par le langage et agnostique au point de vue, qui combine la détection d'objets ouverte, la compensation de profondeur et la complétion de nuages de points pour permettre à un robot quadrupède avec bras manipulateur d'exécuter des prises sûres et robustes dans des environnements encombrés et partiellement observés, atteignant un taux de succès de 90 % contre 30 % pour une méthode de référence dépendante de la vue.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Inspirée par le sommeil biologique, cette étude propose la Consolidation par Répétition de Sommeil (SRC), une méthode post-entraînement qui améliore la calibration et la fiabilité des réseaux de neurones artificiels en réactivant sélectivement leurs représentations internes sans réapprentissage supervisé.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Cet article propose le cadre d'évaluation « Hospitality-VQA » et un nouveau jeu de données pour mesurer l'aptitude des modèles vision-langage à fournir des informations utiles pour la prise de décision dans l'hôtellerie, révélant que ces modèles nécessitent un ajustement fin spécifique au domaine pour exploiter efficacement les signaux visuels clés.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

Toward Unified Multimodal Representation Learning for Autonomous Driving

Cet article propose un cadre de pré-entraînement par tenseur contrastif (CTP) qui aligne simultanément plusieurs modalités dans un espace d'incorporation unifié pour améliorer la compréhension des scènes et les performances des systèmes de conduite autonome, surpassant ainsi les méthodes traditionnelles d'alignement par paires.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Cette article propose une analyse théorique et empirique des méthodes d'inférence parallèle pour les grands modèles de langage en les modélisant comme des algorithmes de filtrage particulaire, révélant à la fois des garanties de précision non asymptotiques et des limites fondamentales inhérentes à ces approches.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Ce papier présente VLM-SubtleBench, un nouveau benchmark couvrant dix types de différences subtiles et divers domaines (industriel, médical, aérien) pour évaluer les lacunes des modèles vision-langage par rapport aux performances humaines dans le raisonnement comparatif fin.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Cet article présente un cadre de théorie de la décision et un système hybride combinant l'intelligence artificielle et un modèle statistique bayésien pour générer des prévisions probabilistes de la mousson indienne, qui ont été déployées avec succès en 2025 pour éclairer les décisions agricoles de 38 millions de fermiers.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

Ce papier présente SMGI, une théorie structurelle de l'intelligence artificielle générale qui formalise l'apprentissage comme une évolution contrôlée de l'interface d'apprentissage via un méta-modèle typé, établissant ainsi un cadre unificateur qui englobe et généralise des approches existantes telles que la minimisation du risque empirique, l'apprentissage par renforcement et les modèles de priors de programmes.

Aomar Osmani2026-03-10🤖 cs.LG

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

LeJOT-AutoML est un cadre AutoML piloté par des agents LLM qui automatise l'ingénierie des caractéristiques pour la prédiction des temps d'exécution dans Databricks, réduisant ainsi les cycles de développement de plusieurs semaines à quelques minutes et permettant des économies de coûts de 19,01 % grâce à une orchestration optimisée.

Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li2026-03-10🤖 cs.LG

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Ce papier présente E²OAL, un cadre unifié et sans détecteur pour l'apprentissage actif en contexte ouvert qui exploite efficacement les inconnues étiquetées via un clustering guidé par les étiquettes et une calibration Dirichlet pour surpasser les méthodes existantes en précision, efficacité et robustesse.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Bayesian Transformer for Probabilistic Load Forecasting in Smart Grids

Cette étude propose un cadre Transformer bayésien innovant qui intègre trois mécanismes d'incertitude complémentaires pour fournir des prévisions de charge électrique probabilistes bien calibrées et robustes aux changements de distribution, surpassant les modèles existants en précision et en fiabilité sur plusieurs réseaux électriques mondiaux.

Sajib Debnath, Md. Uzzal Mia2026-03-10🤖 cs.LG

NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Le papier propose NaviDriveVLM, un cadre découplé pour la conduite autonome qui sépare le raisonnement de haut niveau d'un grand modèle navigateur de la génération d'actions via un pilote léger, permettant ainsi de surmonter les compromis entre compréhension sémantique et contrôle précis tout en surpassant les modèles VLM existants sur le benchmark nuScenes.

Ximeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey2026-03-10🤖 cs.LG

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

Le papier présente DyQ-VLA, un cadre de quantification dynamique pour les modèles Vision-Language-Action qui, en adaptant la précision des bits en temps réel grâce à des proxies cinématiques, réduit considérablement l'empreinte mémoire et accélère l'inférence tout en préservant les performances.

Zihao Zheng, Hangyu Cao, Sicheng Tian, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Ce papier présente Rel-MOSS, une nouvelle méthode d'apprentissage profond relationnel qui résout le problème du déséquilibre des classes dans les bases de données relationnelles grâce à un contrôleur de porte relationnel et un synthétiseur de minorité guidé par les relations, surpassant ainsi les méthodes actuelles sur plusieurs jeux de données.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

Robust Transfer Learning with Side Information

Cet article propose un cadre d'apprentissage par transfert robuste qui intègre des informations secondaires pour construire des ensembles d'incertitude centrés sur l'estimation, permettant ainsi d'obtenir des politiques optimales moins conservatrices et plus efficaces en termes d'échantillons dans des environnements marqués par des décalages distributionnels.

Akram S. Awad, Shihab Ahmed, Yue Wang, George K. Atia2026-03-10🤖 cs.LG

Semantic Risk Scoring of Aggregated Metrics: An AI-Driven Approach for Healthcare Data Governance

Ce papier propose un cadre d'IA modulaire qui évalue les risques de confidentialité des métriques agrégées en santé en analysant statiquement les définitions SQL via des embeddings CodeBERT et un classifieur XGBoost, permettant ainsi une gouvernance proactive et conforme avant le déploiement.

Mohammed Omer Shakeel Ahmed2026-03-10🤖 cs.LG

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Ce papier présente ELLMob, un cadre d'IA générative auto-aligné basé sur les grands modèles de langage et la théorie de la trace floue, qui surpasse les méthodes existantes pour générer des trajectoires humaines réalistes lors d'événements majeurs en résolvant la tension entre les habitudes quotidiennes et les contraintes événementielles grâce à un nouveau jeu de données annoté.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

RL unknotter, hard unknots and unknotting number

Les auteurs développent un pipeline d'apprentissage par renforcement capable de simplifier des diagrammes de nœuds arbitraires, démontrant son efficacité sur des nœuds trivialisés complexes et en retrouvant la borne supérieure surprenante de trois pour le nombre de dénouement du nœud composé $4_1\#9_{10}$.

Anne Dranowski, Yura Kabkov, Daniel Tubbenhauer2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

Le document présente PSTNet, un réseau de neurones léger et physiquement structuré qui intègre des principes fondamentaux de la turbulence atmosphérique pour fournir une estimation précise et rapide en temps réel, surpassant les méthodes classiques et les modèles génériques dans les systèmes de guidage embarqués contraints en ressources.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

← Précédent Suivant →