cs.AI articoli | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Il paper presenta PoultryLeX-Net, un'architettura transformer duale adattata al dominio che combina modelli lessicali e contestuali per analizzare con elevata precisione i sentimenti e i temi relativi all'industria avicola sui social media, superando le prestazioni dei modelli di base esistenti.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Questo articolo presenta TAMUSA-Chat, un framework di ricerca per conversazioni basate su modelli linguistici su larga scala adattati a contesti istituzionali, che integra tecniche di affinamento supervisionato e generazione aumentata da recupero per garantire trasparenza, conformità normativa e pratiche di intelligenza artificiale responsabile.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Il documento presenta CEI, un nuovo benchmark composto da 300 scenari validati da umani progettato per valutare la capacità dei modelli linguistici di inferire significati pragmatici complessi (come sarcasmo, cortesia strategica e aggressività passiva) in contesti sociali e relazionali caratterizzati da diverse dinamiche di potere.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Il documento evidenzia una significativa discrepanza tra le rappresentazioni interne composizionali e le prestazioni funzionali nei modelli linguistici di grandi dimensioni, sottolineando la necessità di valutazioni contrastive per una comprensione completa delle loro capacità.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Lo studio dimostra che, nelle valutazioni dei colloqui comportamentali, l'approccio "human-in-the-loop" supera il prompting iterativo a catena di pensiero, offrendo miglioramenti significativi in autenticità e fiducia con meno iterazioni e una migliore integrazione dei dettagli personali.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Questo studio valuta la robustezza e la sicurezza pedagogica dei modelli linguistici offline per l'educazione alla lingua turca, rivelando che i modelli orientati al ragionamento nella fascia 8B-14B offrono il miglior compromesso tra costi e sicurezza, mentre la resistenza alle anomalie non dipende esclusivamente dalla scala del modello.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Nonostante le proteste degli utenti secondo cui i nuovi modelli OpenAI avrebbero perso empatia, uno studio clinico dimostra che i punteggi di empatia sono rimasti invariati tra le generazioni, rivelando invece che la percezione di un calo è dovuta a un cambiamento nella postura di sicurezza: i modelli più recenti hanno migliorato il rilevamento delle crisi ma ridotto la sicurezza dei consigli, creando un compromesso invisibile che gli utenti interpretano erroneamente come una mancanza di empatia.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Questo studio presenta un framework automatizzato di valutazione che, confrontando Google Translate con modelli LLM come GPT-4o e DeepSeek su testi cinesi di varia natura, rivela che, sebbene le prestazioni siano eccellenti nella traduzione giornalistica, rimangono sfide significative nel preservare le sfumature culturali e le espressioni figurative nei testi letterari.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Questo articolo presenta e convalida un assistente linguistico basato sul recupero di informazioni, progettato per supportare la valutazione della sicurezza e la conformità normativa dei sistemi di aeromobili senza equipaggio, garantendo tracciabilità e affidabilità attraverso l'uso esclusivo di fonti regolamentari autorevoli e citazioni verificabili.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Questo paper presenta la creazione del dataset LatamQA, composto da oltre 26.000 domande e risposte multilingue derivate da Wikipedia e Wikidata, utilizzato per valutare e rivelare i pregiudizi culturali e le disparità linguistiche dei modelli linguistici su larga scala nei confronti delle diverse culture dell'America Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Il paper introduce SpreadsheetArena, una piattaforma per la valutazione tramite confronti ciechi delle prestazioni dei modelli linguistici nella generazione end-to-end di fogli di calcolo, evidenziando come le preferenze varino in base al contesto e come i modelli attuali faticino a rispettare le best practice di dominio specifico.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Il paper presenta SENS-ASR, un approccio che migliora la qualità della trascrizione nei sistemi di riconoscimento vocale in streaming iniettando informazioni semantiche estratte da un modulo addestrato tramite distillazione della conoscenza, ottenendo così una significativa riduzione del tasso di errore delle parole in scenari con finestre temporali ridotte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Questo articolo dimostra che i codificatori bidirezionali specializzati, come AraBERTv2, superano i decoder causali nel compito di classificazione del testo medico arabo su 82 categorie, grazie alla loro capacità di catturare un contesto globale più preciso rispetto alla natura sequenziale dei decoder.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Il paper introduce P-GRPO, un nuovo framework di allineamento che supera i limiti del GRPO standard nella gestione delle preferenze eterogenee normalizzando i vantaggi rispetto a storie di reward specifiche per gruppo, consentendo così ai modelli linguistici di adattarsi più efficacemente e rapidamente a diverse preferenze individuali senza sacrificare le capacità generali.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Il paper introduce FERRET, un framework automatizzato di red teaming multi-modale che utilizza espansioni orizzontali, verticali e meta per generare conversazioni avversarie più efficaci, superando le prestazioni degli approcci esistenti.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Questo studio introduce un nuovo dataset gold standard sviluppato da veterani per misurare i tassi di rifiuto nei modelli linguistici militari, analizzando le prestazioni di numerosi modelli e dimostrando come tecniche di ablazione possano eliminare quasi totalmente i rifiuti a fronte di una minima riduzione delle prestazioni su altri compiti militari.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Lo studio esamina la presenza di bias cognitivi simili a quelli umani, come l'effetto della vittima virtuosa e l'effetto alone, nei modelli linguistici di grandi dimensioni utilizzati per il supporto alle decisioni giudiziarie, rivelando che, sebbene questi modelli mostrino alcune distorsioni, presentano in generale un pregiudizio inferiore rispetto agli esseri umani, sebbene le variazioni tra i diversi modelli ne limitino attualmente l'uso pratico nei sistemi giudiziari.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Il paper presenta DeliberationBench, un benchmark normativo che valuta l'influenza persuasiva dei modelli linguistici di grandi dimensioni (LLM) confrontandola con i sondaggi di opinione deliberativa, dimostrando attraverso un esperimento su larga scala che tali modelli esercitano effetti epistemicamente desiderabili e allineati agli standard democratici.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Questo studio interdisciplinare esamina l'emergere della "GPTheologia", un nuovo fenomeno di fede tecnologica in cui l'intelligenza artificiale viene percepita come entità divina, analizzando come le interazioni quotidiane con i modelli linguistici stiano sviluppando rituali e narrazioni che ricalcano strutture religiose tradizionali con profonde implicazioni etiche e sociali.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Questo articolo propone un quadro concettuale e operativo che definisce i modelli AI come parametri e architetture addestrati, e i sistemi AI come l'insieme di tali modelli più componenti aggiuntive, al fine di risolvere le ambiguità normative e chiarire la ripartizione delle responsabilità tra i diversi attori della catena del valore.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

← Precedente Successivo →