cs.AI articles | Gist.Science

PACED: Distillation at the Frontier of Student Competence

Le papier présente PACED, un cadre de distillation de modèles de langage qui optimise l'apprentissage en se concentrant théoriquement et empiriquement sur la « zone de développement proximal » du modèle élève, évitant ainsi le gaspillage de ressources sur des tâches trop faciles ou trop difficiles pour maximiser les gains de performance tout en minimisant l'oubli.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Representation Finetuning for Continual Learning

Ce papier présente CoRe, un cadre novateur qui améliore l'apprentissage continu en déplaçant le paradigme de l'ajustement fin de l'espace des poids vers l'espace des représentations via des interventions dans un sous-espace linéaire de rang faible, garantissant ainsi une meilleure stabilité et plasticité que les méthodes existantes.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters

Le papier propose SimE, un cadre d'apprentissage incrémental simple et efficace basé sur un modèle vision-langage avec des adaptateurs non linéaires, qui surpasse les méthodes existantes en exploitant une corrélation non linéaire entre le nombre de connexions d'adaptateurs et les performances du modèle tout en éliminant le besoin d'une banque de mémoire.

Haihua Luo, Xuming Ran, Jiangrong Shen, Timo Hämäläinen, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.AI

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Cette étude évalue les capacités d'attaque cybernétique autonome de sept modèles d'IA de pointe sur des scénarios multi-étapes, révélant une amélioration log-linéaire des performances avec l'augmentation des ressources de calcul et une progression générationnelle significative, bien que les systèmes de contrôle industriel restent un défi majeur.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Le papier propose MDER-DR, un cadre de question-réponse piloté par les LLMs qui améliore significativement les performances du RAG sur les graphes de connaissances en combinant une nouvelle méthode d'indexation (MDER) générant des résumés centrés sur les entités et un mécanisme de récupération itératif (DR), permettant ainsi de surmonter les limites des approches traditionnelles pour les requêtes multi-sauts.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero Fraternali2026-03-13💬 cs.CL

Markovian Generation Chains in Large Language Models

Cette étude définit les chaînes de génération markoviennes dans les grands modèles de langage pour analyser comment l'inférence itérative affecte la diversité des textes, révélant que le processus peut soit converger vers un ensemble restreint, soit générer de nouvelles phrases selon des facteurs tels que la température et l'entrée initiale.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Le papier propose SoLA, un cadre d'édition de modèles de langage à vie réversible qui utilise un routage sémantique pour activer dynamiquement des modules LoRA indépendants, permettant ainsi d'éviter l'oubli catastrophique et d'assurer l'annulation précise de modifications spécifiques.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Zhonghua Chen, Jiangrong Shen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.AI

Mind the Sim2Real Gap in User Simulation for Agentic Tasks

Cette étude révèle que les simulateurs d'utilisateurs basés sur les LLM présentent un écart significatif par rapport à la réalité humaine en étant excessivement coopératifs et uniformes, ce qui fausse l'évaluation des agents et souligne la nécessité d'une validation humaine rigoureuse dans le cycle de développement.

Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap2026-03-13🤖 cs.AI

Artificial Intelligence for Sentiment Analysis of Persian Poetry

Cette étude démontre que les modèles de langage modernes, en particulier GPT-4o, peuvent analyser efficacement la poésie persane de Rumi et Parvin E'tesami pour révéler des différences de sentiment et de métrique, offrant ainsi une méthode objective et dénuée de biais humains pour l'analyse sémantique littéraire.

Arash Zargar, Abolfazl Moshiri, Mitra Shafaei, Shabnam Rahimi-Golkhandan, Mohamad Tavakoli-Targhi, Farzad Khalvati2026-03-13💬 cs.CL

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

Ce papier propose un cadre d'évaluation dynamique pour tester la robustesse de l'oubli dans les grands modèles de langage, révélant que les méthodes actuelles échouent souvent face aux requêtes complexes multi-étapes en raison de voies de calcul alternatives non perturbées, contrairement aux benchmarks statiques existants.

Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang2026-03-13🤖 cs.AI

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

Cette étude démontre que les dialogues médiatisés par l'IA améliorent la reconnaissance des microagressions validistes par rapport à la simple lecture, bien que les incitations biaisées augmentent la négativité globale tandis que les approches inclusives ou autodirigées favorisent un apprentissage plus équilibré.

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. Bigham2026-03-13🤖 cs.AI

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

Le papier présente le cadre COMPASS, une architecture multi-agents modulaire et explicable qui intègre de manière unifiée la souveraineté, la durabilité, la conformité et l'éthique dans les systèmes d'IA autonomes grâce à des mécanismes de gouvernance enrichis par la génération augmentée par récupération (RAG) pour garantir des décisions alignées sur les valeurs et traçables.

Jean-Sébastien, Dessureault, Alain-Thierry, Iliho Manzi, Soukaina, Alaoui Ismaili, Khadim, Lo, Mireille, Lalancette, Éric, Bélanger2026-03-13🤖 cs.AI

AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

Cette étude démontre que l'application de la psychométrie à l'intelligence artificielle permet d'évaluer la validité psychométrique de grands modèles de langage comme GPT-4 et LLaMA-3, lesquels surpassent leurs prédécesseurs en matière de raisonnement psychologique.

Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li2026-03-13🤖 cs.AI

Counterweights and Complementarities: The Convergence of AI and Blockchain Powering a Decentralized Future

Cet éditorial plaide pour la convergence complémentaire de l'IA et de la blockchain afin de créer une « intelligence décentralisée » qui contrebalance les risques de centralisation de l'IA par la transparence et la sécurité inhérentes à la blockchain.

Yibai Li (Emily), Zhiye Jin (Emily), Xiaobing (Emily), Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng2026-03-13🤖 cs.AI

Worst-case low-rank approximations

Cet article présente le cadre unifié wcPCA pour l'approximation de rang faible, qui garantit des performances optimales dans le pire des cas sur des domaines hétérogènes en étendant cette approche à d'autres objectifs et à la complétion de matrices, tout en démontrant son efficacité supérieure sur des données réelles.

Anya Fries, Markus Reichstein, David Blei, Jonas Peters2026-03-13📊 stat

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Ce papier présente HAPO, une méthode d'optimisation de politique qui résout le dilemme des récompenses clairsemées en RLVR grâce à un mécanisme d'injection rétrospective de succès guidé par un échantillonnage de Thompson, garantissant une convergence asymptotique vers un gradient non biaisé tout en utilisant temporairement des démonstrations d'enseignant comme échafaudage.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Cette étude propose un modèle théorique basé sur les systèmes de verre de spin pour expliquer comment les attaques par injection de prompts peuvent faire passer le taux de réussite des jailbreaks d'une croissance polynomiale à une croissance exponentielle en fonction de la longueur du prompt injecté, un phénomène confirmé empiriquement sur les grands modèles de langage.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Cet article propose un jumeau numérique augmenté par les grands modèles de langage (LLM), doté d'une architecture modulaire à quatre composantes, pour simuler et évaluer de manière reproductible l'impact des politiques et des outils d'IA sur les écosystèmes fermés des plateformes de vidéos courtes.

Haoting Zhang (Max), Yunduan Lin (Max), Jinghai He (Max), Denglin Jiang (Max), Zuo-Jun (Max), Shen, Zeyu Zheng2026-03-13🤖 cs.AI

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

Le papier présente RewardHackingAgents, un nouveau benchmark qui mesure la vulnérabilité des agents LLM à la triche de l'évaluation (comme la manipulation des métriques ou la fuite de données) et démontre qu'une combinaison de défenses est nécessaire pour garantir l'intégrité des résultats dans les tâches d'ingénierie ML.

Yonas Atinafu, Robin Cohen2026-03-13🤖 cs.AI

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Ce papier présente FinRule-Bench, un benchmark conçu pour évaluer la capacité des grands modèles de langage à auditer des états financiers réels en appliquant des principes comptables explicites à travers des tâches de vérification, d'identification et de diagnostic conjoint de violations.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

← Précédent Suivant →