cs.AI articles | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

L'article présente PoultryLeX-Net, une architecture de transformateur à double flux enrichie par un lexique et adaptée au domaine, qui surpasse les modèles de base pour l'analyse fine des sentiments dans le discours sur l'industrie avicole en atteignant une précision de 97,35 %.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Ce papier présente TAMUSA-Chat, un cadre de recherche permettant aux institutions académiques de développer des systèmes conversationnels adaptés à leur domaine grâce à l'affinage supervisé et à la génération augmentée par récupération, tout en garantissant la transparence, la conformité et des pratiques responsables en matière d'IA.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Ce papier présente le benchmark CEI, un ensemble de données validé par des humains contenant 300 scénarios conçus pour évaluer la capacité des modèles de langage à effectuer un raisonnement pragmatique en inférant le sens intentionnel au-delà de la sémantique littérale dans divers contextes sociaux et relations de pouvoir.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Cette étude révèle une divergence frappante entre les représentations internes compositionnelles des grands modèles de langage et leur capacité à les traduire de manière cohérente en performances fonctionnelles lors de tâches d'adjectif-nom, soulignant ainsi la nécessité d'évaluations contrastives pour une compréhension complète de leurs capacités.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Cette étude démontre que, pour l'évaluation et l'amélioration des réponses aux entretiens comportementaux, une approche humaine en boucle surpasse l'itération par la chaîne de pensée automatisée en offrant une meilleure authenticité, une plus grande confiance et une convergence plus rapide grâce à une intégration contextuelle supérieure.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Cette étude évalue la robustesse et la sécurité pédagogique des grands modèles de langage hors ligne pour l'enseignement de la langue turque, révélant que les modèles orientés vers le raisonnement de 8 à 14 milliards de paramètres offrent le meilleur compromis entre coût et sécurité, indépendamment de l'échelle du modèle.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Cette étude clinique démontre que la perception d'une perte d'empathie dans les modèles GPT récents est en réalité le résultat d'une amélioration de la détection des crises et d'une modification de la posture de sécurité, plutôt que d'un changement dans la capacité empathique elle-même.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Cette étude évalue automatiquement les performances de plusieurs grands modèles de langage (LLM) et de Google Translate pour la traduction du chinois mandarin vers l'anglais, révélant qu'ils excellent dans les articles de presse mais peinent encore à préserver les nuances culturelles et les références littéraires complexes.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Ce papier présente la conception et la validation d'un assistant basé sur la récupération d'informations, ancré dans des sources réglementaires autoritaires, pour soutenir l'évaluation de la sécurité et la conformité normative des systèmes d'aéronefs sans pilote tout en garantissant la traçabilité et la responsabilité humaine.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Ce papier présente la création de la base de données LatamQA, un ensemble de plus de 26 000 questions à choix multiples en espagnol et portugais dérivé de Wikidata et de Wikipédia, utilisé pour révéler les biais socioculturels et géographiques des grands modèles de langage envers les pays d'Amérique latine par rapport à l'Espagne.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Ce papier présente SpreadsheetArena, une plateforme d'évaluation par comparaison aveugle conçue pour analyser les performances des modèles de langage dans la génération de classeurs Excel, révélant que les préférences varient considérablement selon les cas d'usage et que les modèles actuels peinent encore à respecter systématiquement les meilleures pratiques de domaine.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Le papier présente SENS-ASR, une méthode qui améliore la reconnaissance automatique de la parole en streaming en enrichissant les informations acoustiques avec des représentations sémantiques extraites des cadres passés via un module d'enseignement par distillation de connaissances, réduisant ainsi significativement le taux d'erreur sur les mots dans des scénarios à faible latence.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Cette étude démontre que les encodeurs bidirectionnels spécialisés, tels qu'AraBERTv2, surpassent les décodeurs causaux pour la classification précise de textes médicaux arabes en 82 catégories, grâce à une meilleure capture du contexte global malgré les déséquilibres et le bruit des données.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Ce papier propose P-GRPO, une nouvelle méthode d'alignement qui améliore l'adaptation aux préférences individuelles hétérogènes des grands modèles de langage en découplant l'estimation des avantages des statistiques de lot immédiates pour éviter les biais vers les préférences dominantes.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Le papier présente FERRET, un cadre de test rouge automatisé et multi-facettes qui améliore la génération de conversations adverses multimodales grâce à trois expansions stratégiques : horizontale, verticale et méta.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Cette étude présente une nouvelle méthode d'évaluation des taux de refus des modèles de langage militaires, identifie des taux de rejet excessifs sur des requêtes légitimes, et démontre que l'ablation peut significativement réduire ces refus au prix d'une légère baisse de performance sur d'autres tâches, plaidant ainsi pour une spécialisation plus poussée de ces modèles.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Cette étude évalue la présence de biais cognitifs humains, notamment l'effet de victime vertueuse et l'effet de halo, dans cinq grands modèles de langage appliqués à l'aide à la décision judiciaire, révélant que bien que ces modèles présentent des variations limitant leur usage immédiat, ils affichent une réduction modeste de ces biais par rapport aux humains, à l'exception notable de l'effet de prestige lié aux credentials.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Cette étude présente DeliberationBench, un cadre normatif validé par une expérience à grande échelle qui démontre que l'influence des grands modèles de langage sur les opinions des utilisateurs est substantielle et alignée sur les standards démocratiques de délibération.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Cet article examine l'émergence de la « GPThéologie », un phénomène techno-religieux où l'intelligence artificielle est perçue comme divine, en analysant comment les interactions quotidiennes avec les modèles de langage et les récits communautaires recréent des structures religieuses traditionnelles tout en soulevant des enjeux éthiques et sociétaux majeurs.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Cet article propose un cadre conceptuel et opérationnel pour définir clairement la distinction entre les modèles et les systèmes d'IA, afin de résoudre les ambiguïtés réglementaires et d'attribuer avec précision les responsabilités le long de la chaîne de valeur de l'IA.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

← Précédent Suivant →