cs.AI articles | Gist.Science

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant Ilager2026-03-11🤖 cs.AI

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Cette étude comparative sur les processeurs supraconducteurs et à ions piégés démontre que le recyclage aveugle des ancillas permet de réduire considérablement la latence des cycles de correction d'erreurs tout en maintenant une propreté suffisante pour des codes de répétition, offrant ainsi des directives de déploiement spécifiques à chaque architecture.

Sangkeum Lee2026-03-11⚛️ quant-ph

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Cet article présente une revue systématique et une évaluation comparative des techniques d'apprentissage fédéré dans les environnements de calcul en périphérie, en analysant cinq algorithmes majeurs sur des métriques clés et en identifiant les défis persistants pour orienter les recherches futures.

Sales Aribe Jr., Gil Nicholas Cagande2026-03-11🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Ce papier présente Auralink SDC, une architecture d'agents IA autonomes déployés en périphérie pour gérer les infrastructures de recharge de véhicules électriques, permettant une résolution autonome des incidents avec une haute précision et une latence ultra-faible grâce à des modèles spécialisés et des mécanismes de raisonnement adaptatif.

Mohammed Cherifi2026-03-11🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Cet article présente un cadre de compression pour le calcul en réservoir qui utilise un mécanisme d'élagage basé sur la sensibilité pour optimiser les compromis entre précision, efficacité matérielle et consommation de ressources dans les implémentations FPGA, tout en maintenant des performances élevées sur diverses tâches de séries temporelles.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner2026-03-11🤖 cs.AI

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Cet article examine les techniques d'optimisation matérielle et présente une analyse des accélérateurs de réseaux de neurones basés sur les FPGA, en soulignant leurs avantages par rapport aux solutions ASIC et GPU pour répondre aux exigences croissantes des modèles d'apprentissage profond.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur Rahaman2026-03-11🤖 cs.AI

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Ce papier présente Zipage, un moteur d'inférence LLM qui utilise la méthode Compressed PagedAttention pour maintenir une forte concurrence de requêtes lors du raisonnement tout en préservant 95 % des performances et en offrant un gain de vitesse de plus de 2,1 fois par rapport aux moteurs à cache KV complet.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan2026-03-11🤖 cs.AI

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Cette étude analyse systématiquement la sensibilité à la quantification FP4 (MXFP4 et NVFP4) des modèles Qwen2.5 à différentes échelles, révélant que les couches de projection MLP sont les plus critiques et que la sensibilité ne se limite pas uniquement aux derniers blocs du modèle.

Musa Cim, Burak Topcu, Mahmut Taylan Kandemir2026-03-11🤖 cs.AI

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Cet article propose une théorie et une architecture canonique pour les modèles d'espace d'état 2D équivariants aux permutations, introduisant le modèle VI 2D Mamba qui élimine les dépendances séquentielles artificielles entre les variables pour atteindre des performances de pointe dans l'analyse de séries temporelles multivariées.

Seungwoo Jeong, Heung-Il Suk2026-03-11🤖 cs.AI

Hindsight Credit Assignment for Long-Horizon LLM Agents

Le papier présente HCAPO, un cadre innovant qui intègre l'attribution de crédit rétrospectif via l'LLM lui-même pour surmonter les défis de l'apprentissage par renforcement dans les tâches à long horizon, surpassant ainsi les méthodes de pointe comme GRPO sur des benchmarks complexes.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Turn: A Language for Agentic Computation

Ce papier présente Turn, un langage de programmation compilé et basé sur des acteurs conçu pour les logiciels autonomes, qui intègre nativement la sécurité des types pour les inférences LLM, un modèle de processus isolé, un système d'identité basé sur les capacités et l'absorption de schémas à la compilation pour garantir la fiabilité et la sécurité des agents.

Muyukani Kizito2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

Ce papier propose une réduction générale qui permet de transformer n'importe quelle fonction invariante sur un produit d'espaces en une fonction invariante sous l'action du sous-groupe d'isotropie, éliminant ainsi les contraintes structurelles des méthodes existantes pour les champs de réseaux neuronaux équivariants.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

L'article présente EDMFormer, un modèle de type transformer utilisant un apprentissage auto-supervisé sur un nouveau jeu de données annoté (EDM-98) pour améliorer la segmentation structurelle de la musique électronique, en se concentrant spécifiquement sur des caractéristiques comme l'énergie et le rythme plutôt que sur la mélodie ou les paroles.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song Bae2026-03-11🤖 cs.AI

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Cet article propose de repenser les fondements des dossiers de sécurité pour les systèmes d'IA de pointe en intégrant des méthodologies rigoureuses issues des industries critiques, afin de combler les lacunes des approches actuelles de l'alignement et d'établir un cadre plus robuste et défendable, illustré par une étude de cas sur l'alignement trompeur et les capacités CBRN.

Shaun Feakins, Ibrahim Habli, Phillip Morgan2026-03-11🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

Cet article propose un cadre d'apprentissage par renforcement méta multi-niveaux intégrant un curriculum basé sur des compétences, qui comprime efficacement les processus de décision markoviens en hiérarchisant les politiques pour réduire la stochasticité, accélérer la convergence et faciliter le transfert de compétences entre différents problèmes et niveaux de complexité.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Cet article présente un cadre automatisé utilisant un modèle de langage pour générer et exécuter des protocoles de contrôle et de mesure pour les qubits supraconducteurs, permettant ainsi une caractérisation autonome et une reproduction efficace d'expériences complexes.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Ce papier présente TDAD, une méthodologie qui traite les prompts d'agents IA comme des artefacts compilés en générant des tests exécutables à partir de spécifications comportementales pour garantir la conformité et prévenir les régressions lors du déploiement d'agents utilisant des outils.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Le papier présente Scale-Plan, un cadre évolutif assisté par les grands modèles de langage qui génère des représentations de problèmes compactes et pertinentes pour surmonter les défis de la planification à long terme dans les systèmes multi-robots hétérogènes, tout en introduisant le benchmark MAT2-THOR pour évaluer ces systèmes avec fiabilité.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Cette étude démontre que les métriques de couverture dans les systèmes de récupération peuvent servir d'indicateurs fiables de la couverture informationnelle des réponses générées par les systèmes RAG, particulièrement lorsque les objectifs de récupération s'alignent avec ceux de la génération.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

← Précédent Suivant →