Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Cet article présente un pipeline de préhension guidé par le langage et agnostique au point de vue, qui combine la détection d'objets ouverte, la compensation de profondeur et la complétion de nuages de points pour permettre à un robot quadrupède avec bras manipulateur d'exécuter des prises sûres et robustes dans des environnements encombrés et partiellement observés, atteignant un taux de succès de 90 % contre 30 % pour une méthode de référence dépendante de la vue.

Dilermando Almeida, Juliano Negri, Guilherme Lazzarini, Thiago H. Segreto, Ranulfo Bezerra, Ricardo V. Godoy, Marcelo Becker2026-03-10🤖 cs.LG

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Inspirée par le sommeil biologique, cette étude propose la Consolidation par Répétition de Sommeil (SRC), une méthode post-entraînement qui améliore la calibration et la fiabilité des réseaux de neurones artificiels en réactivant sélectivement leurs représentations internes sans réapprentissage supervisé.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Cet article propose le cadre d'évaluation « Hospitality-VQA » et un nouveau jeu de données pour mesurer l'aptitude des modèles vision-langage à fournir des informations utiles pour la prise de décision dans l'hôtellerie, révélant que ces modèles nécessitent un ajustement fin spécifique au domaine pour exploiter efficacement les signaux visuels clés.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Cette article propose une analyse théorique et empirique des méthodes d'inférence parallèle pour les grands modèles de langage en les modélisant comme des algorithmes de filtrage particulaire, révélant à la fois des garanties de précision non asymptotiques et des limites fondamentales inhérentes à ces approches.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Cet article présente un cadre de théorie de la décision et un système hybride combinant l'intelligence artificielle et un modèle statistique bayésien pour générer des prévisions probabilistes de la mousson indienne, qui ont été déployées avec succès en 2025 pour éclairer les décisions agricoles de 38 millions de fermiers.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

Ce papier présente SMGI, une théorie structurelle de l'intelligence artificielle générale qui formalise l'apprentissage comme une évolution contrôlée de l'interface d'apprentissage via un méta-modèle typé, établissant ainsi un cadre unificateur qui englobe et généralise des approches existantes telles que la minimisation du risque empirique, l'apprentissage par renforcement et les modèles de priors de programmes.

Aomar Osmani2026-03-10🤖 cs.LG

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

LeJOT-AutoML est un cadre AutoML piloté par des agents LLM qui automatise l'ingénierie des caractéristiques pour la prédiction des temps d'exécution dans Databricks, réduisant ainsi les cycles de développement de plusieurs semaines à quelques minutes et permettant des économies de coûts de 19,01 % grâce à une orchestration optimisée.

Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li2026-03-10🤖 cs.LG

NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Le papier propose NaviDriveVLM, un cadre découplé pour la conduite autonome qui sépare le raisonnement de haut niveau d'un grand modèle navigateur de la génération d'actions via un pilote léger, permettant ainsi de surmonter les compromis entre compréhension sémantique et contrôle précis tout en surpassant les modèles VLM existants sur le benchmark nuScenes.

Ximeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey2026-03-10🤖 cs.LG

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

Le papier présente DyQ-VLA, un cadre de quantification dynamique pour les modèles Vision-Language-Action qui, en adaptant la précision des bits en temps réel grâce à des proxies cinématiques, réduit considérablement l'empreinte mémoire et accélère l'inférence tout en préservant les performances.

Zihao Zheng, Hangyu Cao, Sicheng Tian, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Ce papier présente Rel-MOSS, une nouvelle méthode d'apprentissage profond relationnel qui résout le problème du déséquilibre des classes dans les bases de données relationnelles grâce à un contrôleur de porte relationnel et un synthétiseur de minorité guidé par les relations, surpassant ainsi les méthodes actuelles sur plusieurs jeux de données.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Ce papier présente ELLMob, un cadre d'IA générative auto-aligné basé sur les grands modèles de langage et la théorie de la trace floue, qui surpasse les méthodes existantes pour générer des trajectoires humaines réalistes lors d'événements majeurs en résolvant la tension entre les habitudes quotidiennes et les contraintes événementielles grâce à un nouveau jeu de données annoté.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG