cs.AI articles | Gist.Science

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Cette étude démontre que des analystes IA autonomes peuvent reproduire à grande échelle la diversité analytique observée chez les humains, révélant ainsi une incertitude méthodologique significative et plaidant pour une nouvelle norme de transparence exigeant la divulgation des prompts et l'utilisation de rapports de type « multivers » pour les analyses générées par l'IA.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Le papier présente LAVIDA, un cadre de détection d'anomalies vidéo en zéro-shot qui utilise un échantillonneur d'exposition aux anomalies et un modèle de langage multimodal pour atteindre des performances de pointe sans aucun entraînement sur des données réelles d'anomalies.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao2026-03-12🤖 cs.AI

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for Low-dose CT imaging

Le papier présente PatchDenoiser, un cadre de débruitage ultra-léger et économe en énergie basé sur l'apprentissage multi-échelle de patches, qui surpasse les méthodes existantes en préservant les détails anatomiques tout en réduisant considérablement la complexité computationnelle et la consommation énergétique pour l'imagerie CT à faible dose.

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn, Sergei G. Solovski2026-03-12🤖 cs.AI

Adversarial Hubness Detector: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Ce papier présente Hubscan, un scanner de sécurité open-source conçu pour détecter le « hubness poisoning » dans les systèmes de génération augmentée par récupération (RAG) en utilisant une architecture multi-détecteurs pour identifier les vecteurs malveillants qui faussent les résultats de recherche.

Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade2026-03-12🤖 cs.AI

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Ce papier propose AMLRIS, une stratégie d'apprentissage masqué sensible à l'alignement qui améliore la segmentation d'images par référence en filtrant dynamiquement les pixels visuellement non alignés avec la description textuelle durant l'entraînement, atteignant ainsi des performances de pointe sur les benchmarks RefCOCO.

Tongfei Chen, Shuo Yang, Yuguang Yang, Linlin Yang, Runtang Guo, Changbai Li, He Long, Chunyu Xie, Dawei Leng, Baochang Zhang2026-03-12🤖 cs.AI

A Minimal Agent for Automated Theorem Proving

Les auteurs proposent une baseline minimale d'agent pour la preuve de théorèmes, intégrant les fonctionnalités essentielles des systèmes de pointe, qui démontre des performances compétitives avec une architecture plus simple et une meilleure efficacité d'échantillonnage grâce à une approche itérative, tout en étant disponible en open source.

Borja Requena, Austin Letson, Krystian Nowakowski, Izan Beltran Ferreiro, Leopoldo Sarra2026-03-12🤖 cs.AI

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

Cette étude révèle que l'alignement de sécurité des grands modèles de langage entraîne un « biais de refus défensif », les amenant à rejeter injustement des requêtes légitimes de cybersécurité contenant des mots-clés sensibles, un problème aggravé par les justifications d'autorisation et particulièrement critique pour les agents de défense autonomes.

David Campbell, Neil Kale, Udari Madhushani Sehwag, Bert Herring, Nick Price, Dan Borges, Alex Levinson, Christina Q Knight2026-03-12🤖 cs.AI

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Ce papier présente CARE, un cadre agentique qui améliore la responsabilité clinique dans le raisonnement médical multimodal en décomposant la tâche en modules spécialisés pour générer des preuves visuelles explicites et en utilisant un apprentissage par renforcement pour aligner les réponses sur ces preuves.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Le papier propose SEED-SET, un cadre de conception expérimentale bayésienne qui combine évaluations objectives et jugements subjectifs des parties prenantes via des processus gaussiens hiérarchiques pour optimiser le test éthique des systèmes autonomes.

Anjali Parashar, Yingke Li, Eric Yang Yu, Fei Chen, James Neidhoefer, Devesh Upadhyay, Chuchu Fan2026-03-12📊 stat

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Le papier présente BrandFusion, un cadre multi-agents innovant qui permet l'intégration transparente et contextuelle de marques dans des vidéos générées par texte, en surmontant les défis de fidélité sémantique et de reconnaissance de la marque pour ouvrir la voie à la monétisation durable de la génération vidéo.

Zihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu2026-03-12🤖 cs.AI

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Cette étude présente la première évaluation complète du fine-tuning efficace en paramètres (PEFT) pour l'analyse de code multi-tâches, démontrant qu'un module PEFT partagé peut égaler ou surpasser le fine-tuning complet tout en réduisant considérablement les coûts de calcul et de stockage, et en surpassant les modèles de langage généralistes même avec des paramètres limités.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Cet article propose une méthode d'oubli ciblé pour les grands modèles de langage (LLM) appelée TRU, qui utilise des objectifs de raisonnement pour éliminer de manière fiable et explicable des connaissances indésirables tout en préservant les capacités générales du modèle.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Ce papier présente AraModernBERT, une adaptation de l'architecture ModernBERT à la langue arabe qui démontre l'importance cruciale de l'initialisation par transtokenisation et de la modélisation native de longs contextes jusqu'à 8 192 tokens pour améliorer les performances en compréhension du langage naturel.

Omar Elshehy, Omer Nacar, Abdelbasset Djamai, Muhammed Ragab, Khloud Al Jallad, Mona Abdelazim2026-03-12💬 cs.CL

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Ce papier présente MoE-SpAc, un cadre d'inférence pour les modèles MoE sur des périphériques hétérogènes qui réutilise le décodage spéculatif comme capteur prédictif pour optimiser la gestion de la mémoire et l'équilibrage de charge, permettant ainsi d'atteindre des gains de vitesse significatifs par rapport aux méthodes existantes.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Cette étude empirique démontre que les grands modèles de langage, en particulier ceux ayant une faible précision comme Kimi K2, souffrent d'un effet Dunning-Kruger numérique caractérisé par une surestimation marquée de leurs capacités, soulignant ainsi des risques critiques pour leur déploiement dans des applications à haut risque.

Sudipta Ghosh, Mrityunjoy Panday2026-03-12💬 cs.CL

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Cette étude quantifie la fréquence des hallucinations dans les réponses de modèles de langage à des questions médicales basées sur des manuels, révélant un taux d'hallucination de 19,7 % pour LLaMA-70B-Instruct malgré une haute plausibilité, et démontrant une corrélation entre des taux d'hallucination plus faibles et une préférence accrue des cliniciens.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Ce papier propose un cadre innovant qui optimise la transformation de caractéristiques pilotée par les grands modèles de langage en faisant évoluer dynamiquement un bibliothèque d'expériences de trajectoires validées, surpassant ainsi les méthodes existantes en termes de diversité, d'efficacité et de performance sur des tâches prédictives tabulaires.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Cette étude propose un pipeline qui relie l'analyse des circuits causaux aux explications en langage naturel pour les LLM, démontrant sur la tâche d'identification d'objet indirect dans GPT-2 Small que les explications générées par LLM surpassent les modèles basés sur des templates, tout en révélant un manque de corrélation entre la confiance du modèle et la fidélité des explications.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Cet article présente l'Échelle d'Hallucination Systémique (SHS), un instrument léger et centré sur l'humain validé empiriquement pour évaluer la fiabilité factuelle et la cohérence des grands modèles de langage du point de vue de l'utilisateur, sans se substituer aux détecteurs automatiques.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Cet article propose une architecture à deux étapes automatisant l'analyse des accords de non-divulgation (NDA) en utilisant LLaMA-3.1-8B-Instruct pour la segmentation des clauses et un Legal-Roberta-Large affiné pour leur classification, atteignant des performances élevées avec un score F1 de 0,95 pour la segmentation et 0,85 pour la classification.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

← Précédent Suivant →