cs.AI articles | Gist.Science

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Cet article présente et évalue cinq stratégies d'ingénierie de prompts visant à réduire les hallucinations des grands modèles de langage dans des contextes industriels, démontrant notamment que l'« Enhanced Data Registry » (M4) offre une stabilité épistémique supérieure avec un taux de succès de 100 % par rapport à une baseline.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Ce papier propose XSAM, une nouvelle implémentation de la minimisation sensible à la netteté (SAM) qui surpasse les méthodes existantes en estimant explicitement la direction du maximum et en optimisant l'espace de recherche pour corriger les approximations imparfaites des versions actuelles, le tout avec un surcoût computationnel négligeable.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Ce papier présente InFusionLayer, un outil d'apprentissage automatique open-source en Python qui implémente l'analyse de fusion combinatoire (CFA) pour optimiser les problèmes de classification multiclasse en intégrant des fonctions de caractéristiques de rang-score et une diversité cognitive au sein de workflows PyTorch, TensorFlow et Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Ce papier propose FlowSem-MAE, une approche de préentraînement tabulaire native aux protocoles qui, en exploitant les unités sémantiques de flux et en corrigeant les biais inductifs des méthodes séquentielles existantes, surpasse l'état de l'art pour la classification du trafic chiffré avec seulement la moitié des données étiquetées.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Training Language Models via Neural Cellular Automata

Cette étude propose d'utiliser des automates cellulaires neuronaux pour générer des données synthétiques non linguistiques afin de pré-entraîner des modèles de langage, démontrant que cette approche améliore significativement les performances et la convergence des modèles tout en surpassant l'entraînement sur de vastes corpus de texte naturel.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Cet article présente les AIBOMs, une extension dynamique des SBOMs basée sur une architecture multi-agents autonomes qui enrichit la traçabilité des chaînes d'approvisionnement logicielles en capturant le comportement d'exécution, la dérive environnementale et le contexte d'exploitabilité pour améliorer la reproductibilité et l'évaluation des vulnérabilités.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Le papier propose NabaOS, un cadre de vérification léger inspiré de l'épistémologie indienne qui utilise des reçus de signature HMAC pour détecter les hallucinations des agents IA en temps réel avec une faible latence, offrant un compromis coût-efficacité supérieur aux preuves à connaissance nulle.

Abhinaba Basu2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Ce papier de position propose de traiter la mémoire des systèmes multi-agents comme un problème d'architecture informatique en définissant une hiérarchie à trois couches et en identifiant la cohérence de la mémoire comme le défi le plus critique à relever pour assurer l'évolutivité et la fiabilité de ces systèmes.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

Cet article démontre que le Filtre à Point de Support Épistémique (ESPF), qui synthétise le principe de maximum d'entropie de Jaynes et la falsification poppérienne pour minimiser l'ignorance épistémique pire cas sans recourir à des a priori, constitue le filtre optimal unique dont la validité est confirmée par des simulations de suivi orbital.

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Cet article présente HTMuon, une méthode d'optimisation qui améliore l'algorithme Muon en introduisant une correction spectrale à queues lourdes pour générer des mises à jour plus robustes et réduire la perplexité lors de l'entraînement de modèles de langage, tout en offrant une garantie théorique de convergence.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

L'article présente ADVERSA, un cadre de test automatisé qui évalue la dégradation progressive des garde-fous des grands modèles de langage lors d'interactions adversariales multi-tours, révélant que les jailbreaks réussis se concentrent principalement dans les premiers tours de conversation.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Cette étude présente la première application d'autoencodeurs clairsemés au modèle Chronos-T5, révélant une hiérarchie causale où les couches intermédiaires, et non la dernière, sont essentielles à la détection des changements abrupts pour des prévisions temporelles fiables.

Anurag Mishra2026-03-12🤖 cs.LG

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Cette étude analyse les échecs des modèles de langage dans la génération de correctifs de sécurité pour 64 vulnérabilités Java, révélant que bien que ces modèles préservent souvent la fonctionnalité, ils échouent majoritairement à résoudre les problèmes de sécurité en raison d'incompréhensions sémantiques, ce qui justifie la nécessité d'une validation rigoureuse avant déploiement.

Amir Al-Maamari2026-03-12🤖 cs.AI

Marginals Before Conditionals

Cette étude révèle que les réseaux de neurones apprennent d'abord une distribution marginale, stabilisée par le bruit du gradient et caractérisée par un plateau de perte d'entropie conditionnelle, avant de subir une transition collective abrupte vers l'apprentissage complet de la conditionnalité une fois qu'une tête de routage sélective s'est assemblée.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

Le papier propose TASER, un cadre de défense décentralisé innovant pour les essaims de drones utilisant l'apprentissage fédéré, qui supprime les attaques par porte dérobée en exploitant la concentration spectrale des gradients pour préserver les coefficients de fréquence pertinents pour la tâche principale tout en éliminant les composantes malveillantes.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

L'article présente Amnesia, une attaque légère par déviation d'activation dans l'espace des représentations qui permet de contourner les mécanismes de sécurité des grands modèles de langage à poids ouverts pour générer du contenu nuisible sans nécessiter de réentraînement.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Digging Deeper: Learning Multi-Level Concept Hierarchies

Cet article présente Multi-Level Concept Splitting (MLCS) et Deep-HiCEMs, deux approches capables de découvrir et de modéliser des hiérarchies de concepts multi-niveaux à partir d'une supervision de haut niveau, permettant ainsi des interventions interprétables à plusieurs niveaux d'abstraction tout en maintenant de hautes performances.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Le papier présente KernelSkill, un cadre multi-agents qui améliore l'optimisation des noyaux GPU en remplaçant les heuristiques implicites des modèles de langage par des compétences d'experts explicites et une architecture de mémoire double niveau, atteignant des accélérations significatives par rapport aux méthodes existantes.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Le papier présente ES-dLLM, un cadre d'accélération d'inférence sans entraînement pour les modèles de diffusion de langage (dLLM) qui améliore considérablement le débit en sautant dynamiquement les calculs dans les premières couches basés sur l'importance estimée des tokens, tout en préservant la qualité de génération.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Cet article propose une attaque par perturbation multi-flux qui exploite les vulnérabilités du mode de réflexion des grands modèles de langage en intercalant plusieurs tâches pour contourner leurs mécanismes de sécurité et provoquer l'effondrement de leur processus de raisonnement.

Fan Yang2026-03-12🤖 cs.AI

← Précédent Suivant →