cs.AI articles | Gist.Science

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Cet article propose une critique conséquentialiste des méthodes d'évaluation binaire en machine learning, démontrant par une revue empirique et un nouveau cadre théorique que les règles de score appropriées comme le score Brier sont supérieures aux métriques à seuil fixe, tout en fournissant l'outil logiciel `briertools` et une variante tronquée pour faciliter leur adoption pratique.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Ce papier présente MCP Bridge, un proxy RESTful léger et agnostique aux LLM qui surmonte les limitations des implémentations MCP actuelles en permettant leur exécution sur des environnements contraints avec des contrôles de sécurité avancés, tout en démontrant qu'un modèle Qwen3 finement ajusté avec des techniques d'apprentissage par renforcement dépasse les performances des modèles baselines sur le benchmark MCPToolBench++.

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

L'article présente la SGPO, une méthode qui améliore l'optimisation par politique relative de groupe (GRPO) en intégrant un juge étape par étape pour exploiter les signaux d'apprentissage des groupes de réponses entièrement incorrects, comblant ainsi une lacune majeure de l'apprentissage par renforcement dans le raisonnement des grands modèles de langage.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

Ce papier présente MathQ-Verify, un pipeline à cinq étapes innovant qui valide rigoureusement la formulation des problèmes mathématiques pour filtrer les questions mal posées, améliorant ainsi la qualité des données d'entraînement et les performances des modèles de raisonnement.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

L'article présente UltraEdit, une méthode de mise à jour des connaissances dans les grands modèles de langage qui, sans nécessiter de réentraînement, de suivi des sujets ni de mémoire externe, permet une édition en temps réel ultra-rapide et économe en ressources tout en supportant jusqu'à deux millions de modifications grâce à une stratégie de normalisation continue.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Le papier présente Saturn, un cadre d'apprentissage par renforcement basé sur les problèmes de satisfaisabilité booléenne (SAT) qui surmonte les limitations d'évolutivité, de vérification et de contrôle de difficulté des tâches existantes pour améliorer significativement les capacités de raisonnement des grands modèles de langage.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Le papier présente Daily-Omni, un nouveau benchmark audio-visuel conçu pour évaluer la capacité des modèles de langage multimodaux à réaliser un raisonnement temporel synchronisé entre l'audio et la vidéo, révélant ainsi que les modèles actuels peinent encore à maîtriser cette alignement croisé essentiel.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Cet article présente la première revue systématique de l'intégration des modèles de fondation dans la robotique de service mobile, en analysant comment ces technologies surmontent les défis techniques et éthiques pour permettre une exécution de tâches adaptative et sûre dans des environnements réels.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Ce papier présente TSRating, un cadre unifié qui exploite le jugement de grands modèles de langage (LLM) et un apprentissage méta pour évaluer efficacement la qualité de données de séries temporelles provenant de domaines diversifiés, surpassant ainsi les méthodes existantes en précision et en adaptabilité.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Cette présentation propose CORA, une méthode d'attribution de crédit pour l'apprentissage par renforcement multi-agent coopératif qui utilise l'allocation du noyau de la théorie des jeux coopératifs et l'échantillonnage aléatoire de coalitions pour optimiser l'apprentissage des politiques en attribuant les avantages globaux aux stratégies de coalition.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Ce papier propose ChannelTokenFormer, un cadre de prévision basé sur les Transformers conçu pour gérer simultanément les dépendances inter-canaux, l'échantillonnage asynchrone et les valeurs manquantes afin d'améliorer la robustesse des prévisions de séries temporelles multivariées dans des conditions réelles.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Le papier propose ConLID, une méthode d'apprentissage contrastif supervisé qui améliore la reconnaissance des langues peu dotées sur des données hors domaine en apprenant des représentations invariantes au domaine, tout en préservant les performances des langues riches.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Le papier présente OPENXRD, un cadre de référence complet évaluant la capacité des modèles de langage à assimiler des connaissances contextuelles pour répondre à des questions en cristallographie, révélant que les modèles de taille moyenne bénéficient le plus de documents experts de haute qualité plutôt que de simples quantités de texte.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

Ce papier propose un modèle de résolution de problèmes mathématiques comme une boucle de mise à jour des croyances, distinguant les concepts implicites des concepts explicites dont la création mécanique, absente des systèmes d'IA actuels, est présentée comme l'étape caractéristique de la découverte mathématique.

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

En affinant le modèle Qwen2.5-Coder-32B avec des méthodes d'optimisation RL comme ORPO et GRPO sur un jeu de données synthétique, l'étude QSpark démontre des performances supérieures aux modèles généraux pour la génération de code Qiskit, atteignant 56,29 % de réussite sur le benchmark Qiskit HumanEval tout en soulignant les défis persistants pour les tâches avancées.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Cet article présente la Latent Policy Steering (LPS), une méthode qui améliore les politiques robotiques en faible quantité de données en pré-entraînant un modèle du monde avec des flux optiques pour exploiter des données hétérogènes, puis en affinant ce modèle sur des démonstrations cibles pour sélectionner les meilleures actions et surpasser significativement les approches par imitation comportementale.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Le papier présente MMGraphRAG, une méthode innovante qui intègre des graphes de scènes visuels à des graphes de connaissances textuels via une approche de fusion croisée et l'algorithme SpecLink pour surmonter les hallucinations des LLMs et améliorer le raisonnement multimodal.

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Cette étude propose un cadre d'agents LLM intégrant des mécanismes de débiaisage, notamment un agent « avocat du diable », pour simuler l'évolution des perceptions américaines envers la Chine de 2005 à 2025 et démontrer que l'analyse critique intermédiaire est plus efficace que le simple déframing des nouvelles pour atténuer les biais et aligner les opinions artificielles sur les tendances cognitives humaines.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

L'article propose SFDA-PFT, une méthode d'adaptation de domaine sans source légère qui utilise une translation de caractéristiques personnalisée dans l'espace latent pour améliorer la reconnaissance des expressions faciales à partir de données cibles neutres uniquement, sans nécessiter de données sources ni de synthèse d'images.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Cet article présente AI Blob!, un système expérimental utilisant des modèles de langage et des techniques de récupération sémantique pour réorganiser et réinterpréter automatiquement des archives télévisuelles italiennes en générant des montages narratifs inspirés par l'émission emblématique *Blob*.

Roberto Balestri2026-03-11💬 cs.CL

← Précédent Suivant →