A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Ce papier présente la conception et la validation d'un assistant basé sur la récupération d'informations, ancré dans des sources réglementaires autoritaires, pour soutenir l'évaluation de la sécurité et la conformité normative des systèmes d'aéronefs sans pilote tout en garantissant la traçabilité et la responsabilité humaine.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Ce papier présente la création de la base de données LatamQA, un ensemble de plus de 26 000 questions à choix multiples en espagnol et portugais dérivé de Wikidata et de Wikipédia, utilisé pour révéler les biais socioculturels et géographiques des grands modèles de langage envers les pays d'Amérique latine par rapport à l'Espagne.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Ce papier présente SpreadsheetArena, une plateforme d'évaluation par comparaison aveugle conçue pour analyser les performances des modèles de langage dans la génération de classeurs Excel, révélant que les préférences varient considérablement selon les cas d'usage et que les modèles actuels peinent encore à respecter systématiquement les meilleures pratiques de domaine.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Le papier présente SENS-ASR, une méthode qui améliore la reconnaissance automatique de la parole en streaming en enrichissant les informations acoustiques avec des représentations sémantiques extraites des cadres passés via un module d'enseignement par distillation de connaissances, réduisant ainsi significativement le taux d'erreur sur les mots dans des scénarios à faible latence.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Ce papier propose P-GRPO, une nouvelle méthode d'alignement qui améliore l'adaptation aux préférences individuelles hétérogènes des grands modèles de langage en découplant l'estimation des avantages des statistiques de lot immédiates pour éviter les biais vers les préférences dominantes.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

Cette étude présente une nouvelle méthode d'évaluation des taux de refus des modèles de langage militaires, identifie des taux de rejet excessifs sur des requêtes légitimes, et démontre que l'ablation peut significativement réduire ces refus au prix d'une légère baisse de performance sur d'autres tâches, plaidant ainsi pour une spécialisation plus poussée de ces modèles.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Cette étude évalue la présence de biais cognitifs humains, notamment l'effet de victime vertueuse et l'effet de halo, dans cinq grands modèles de langage appliqués à l'aide à la décision judiciaire, révélant que bien que ces modèles présentent des variations limitant leur usage immédiat, ils affichent une réduction modeste de ces biais par rapport aux humains, à l'exception notable de l'effet de prestige lié aux credentials.

Sierra S. Liu2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Cet article examine l'émergence de la « GPThéologie », un phénomène techno-religieux où l'intelligence artificielle est perçue comme divine, en analysant comment les interactions quotidiennes avec les modèles de langage et les récits communautaires recréent des structures religieuses traditionnelles tout en soulevant des enjeux éthiques et sociétaux majeurs.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Cet article propose un cadre de gouvernance et d'évaluation pour des systèmes d'aide à la décision clinique déterministes et basés sur des règles, spécifiquement conçus pour optimiser la prescription empirique d'antibiotiques en priorisant la transparence, l'auditabilité et l'abstention contrôlée lorsque les conditions de sécurité ne sont pas remplies.

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier Gómez2026-03-12🤖 cs.AI

How to Count AIs: Individuation and Liability for AI Agents

Cet article propose la création d'une « corporation algorithmique » (A-corp), une entité juridique fictionnelle possédée par des humains mais gérée par des IA, afin de résoudre les défis complexes d'identification et de responsabilité légale liés à la prolifération d'agents autonomes en établissant à la fois un lien de responsabilité humaine et une identité persistante pour les IA.

Yonathan Arbel, Peter Salib, Simon Goldstein2026-03-12🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Cette étude présente une évaluation comparative de l'inférence de grands modèles de langage sur les GPU AMD Instinct MI325X, démontrant que l'optimisation adaptée à l'architecture est cruciale pour maximiser le débit et la stabilité, tout en validant des performances élevées et une fiabilité totale sur des modèles allant jusqu'à 1 trillion de paramètres.

Athos Georgiou2026-03-12🤖 cs.AI

Evaluating Progress in Graph Foundation Models: A Comprehensive Benchmark and New Insights

Ce papier présente un nouveau benchmark complet pour les modèles de fondation graphiques qui évalue simultanément les transferts de connaissances à travers les domaines thématiques et les formats de représentation, révélant ainsi de nouvelles perspectives empiriques grâce à une analyse détaillée sur 33 jeux de données.

Xingtong Yu, Shenghua Ye, Ruijuan Liang, Chang Zhou, Hong Cheng, Xinming Zhang, Yuan Fang2026-03-12💬 cs.CL