cs.LG articles | Gist.Science

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Ce papier propose FGO, un algorithme d'apprentissage par renforcement qui améliore l'efficacité de l'utilisation des données et prévient l'effondrement de l'entropie pour compresser les chaînes de pensée des grands modèles de langage sans dégrader leurs performances.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Le papier présente GOT-JEPA, un cadre de pré-entraînement par prédiction de modèles qui améliore la généralisation et la gestion des occlusions dans le suivi d'objets génériques, complété par OccuSolver pour affiner l'estimation de la visibilité et la capture des motifs d'occlusion.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Le papier présente LexiSafe, un cadre d'apprentissage par renforcement hors ligne qui intègre une hiérarchie lexicographique pour garantir la sécurité et améliorer les performances dans les systèmes cyber-physiques, tout en offrant des garanties théoriques de complexité d'échantillonnage.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Ce papier présente ZACH-ViT, un Vision Transformer compact sans embeddings de position ni token [CLS] qui, grâce à un traitement invariant par permutation, démontre des performances compétitives en imagerie médicale à faible échantillonnage en adaptant son biais inductif à la structure spatiale des données.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

En proposant de nouveaux benchmarks rigoureux basés sur des problèmes aléatoires d'un point de vue de la physique statistique, cette étude démontre que les algorithmes classiques surpassent encore les réseaux de neurones graphiques pour résoudre les problèmes de satisfaction de contraintes difficiles, tout en mettant en lumière les défis persistants pour ces derniers.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Cette étude démontre que des analystes IA autonomes peuvent reproduire à grande échelle la diversité analytique observée chez les humains, révélant ainsi une incertitude méthodologique significative et plaidant pour une nouvelle norme de transparence exigeant la divulgation des prompts et l'utilisation de rapports de type « multivers » pour les analyses générées par l'IA.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Cet article propose une méthode d'interrogation active pour apprendre des fonctions d'ensemble sous-additives en minimisant l'erreur additive entre leurs complétions minimales et maximales, afin de réduire l'ambiguïté liée aux valeurs manquantes dans des applications économiques et d'intelligence artificielle.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Cette étude démontre que les modèles de langage comme OPT peuvent développer des biais erronés précoces et persistants sur le benchmark BLiMP, suggérant que des statistiques de bigrammes trompeuses au début de l'entraînement conduisent à un enracinement difficile à corriger des erreurs de catégorisation grammaticale.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Ce papier présente CARE, un cadre agentique qui améliore la responsabilité clinique dans le raisonnement médical multimodal en décomposant la tâche en modules spécialisés pour générer des preuves visuelles explicites et en utilisant un apprentissage par renforcement pour aligner les réponses sur ces preuves.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Cet article propose CFG-Ctrl, un cadre unifié réinterprétant la guidance sans classeur (CFG) comme un contrôle, et introduit une variante à mode glissant (SMC-CFG) qui améliore la stabilité et l'alignement sémantique des modèles de diffusion en corrigeant les défauts des méthodes linéaires actuelles.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Cette étude présente la première évaluation complète du fine-tuning efficace en paramètres (PEFT) pour l'analyse de code multi-tâches, démontrant qu'un module PEFT partagé peut égaler ou surpasser le fine-tuning complet tout en réduisant considérablement les coûts de calcul et de stockage, et en surpassant les modèles de langage généralistes même avec des paramètres limités.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Cet article propose une méthode d'oubli ciblé pour les grands modèles de langage (LLM) appelée TRU, qui utilise des objectifs de raisonnement pour éliminer de manière fiable et explicable des connaissances indésirables tout en préservant les capacités générales du modèle.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Ce papier présente MoE-SpAc, un cadre d'inférence pour les modèles MoE sur des périphériques hétérogènes qui réutilise le décodage spéculatif comme capteur prédictif pour optimiser la gestion de la mémoire et l'équilibrage de charge, permettant ainsi d'atteindre des gains de vitesse significatifs par rapport aux méthodes existantes.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Ce papier propose un cadre innovant qui optimise la transformation de caractéristiques pilotée par les grands modèles de langage en faisant évoluer dynamiquement un bibliothèque d'expériences de trajectoires validées, surpassant ainsi les méthodes existantes en termes de diversité, d'efficacité et de performance sur des tâches prédictives tabulaires.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Ce papier présente TAMUSA-Chat, un cadre de recherche permettant aux institutions académiques de développer des systèmes conversationnels adaptés à leur domaine grâce à l'affinage supervisé et à la génération augmentée par récupération, tout en garantissant la transparence, la conformité et des pratiques responsables en matière d'IA.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Cette étude évalue la robustesse et la sécurité pédagogique des grands modèles de langage hors ligne pour l'enseignement de la langue turque, révélant que les modèles orientés vers le raisonnement de 8 à 14 milliards de paramètres offrent le meilleur compromis entre coût et sécurité, indépendamment de l'échelle du modèle.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Cette étude propose des fondements théoriques expliquant comment les grands modèles de langage décodent la sémantique des prompts, améliorent leurs performances par l'apprentissage en contexte et décomposent les problèmes complexes via le raisonnement en chaîne de pensée, en démontrant que ces mécanismes reposent sur l'inférence exacte des probabilités de transition et la réduction de l'ambiguïté.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Ce papier présente la création de la base de données LatamQA, un ensemble de plus de 26 000 questions à choix multiples en espagnol et portugais dérivé de Wikidata et de Wikipédia, utilisé pour révéler les biais socioculturels et géographiques des grands modèles de langage envers les pays d'Amérique latine par rapport à l'Espagne.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Ce papier présente SpreadsheetArena, une plateforme d'évaluation par comparaison aveugle conçue pour analyser les performances des modèles de langage dans la génération de classeurs Excel, révélant que les préférences varient considérablement selon les cas d'usage et que les modèles actuels peinent encore à respecter systématiquement les meilleures pratiques de domaine.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Cet article démontre que les détecteurs de mensonges basés sur des sondes de vérité échouent à identifier la tromperie des grands modèles de langage lorsqu'elle ne repose pas sur des affirmations factuellement fausses, révélant ainsi une limite critique des approches mécanistes actuelles.

Tom-Felix Berger2026-03-12💬 cs.CL

← Précédent Suivant →