One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

μ\muEd API: Towards A Shared API for EdTech Microservices

Il documento propone una specifica iniziale per un'API standard e indipendente dalla piattaforma, denominata μ\muEd, volta a creare un ecosistema interoperabile di microservizi educativi per automatizzare funzioni come la valutazione, il feedback e i chatbot didattici, integrando esperienze di quattro istituzioni.

Maximillan Sölch, Alexandra Neagu, Marcus Messer, Peter Johnson, Gerd Kortemeyer, Samuel S. H. Ng, Fun Siong Lim, Stephan Krusche2026-03-12💻 cs

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Lo studio esamina la presenza di bias cognitivi simili a quelli umani, come l'effetto della vittima virtuosa e l'effetto alone, nei modelli linguistici di grandi dimensioni utilizzati per il supporto alle decisioni giudiziarie, rivelando che, sebbene questi modelli mostrino alcune distorsioni, presentano in generale un pregiudizio inferiore rispetto agli esseri umani, sebbene le variazioni tra i diversi modelli ne limitino attualmente l'uso pratico nei sistemi giudiziari.

Sierra S. Liu2026-03-12💻 cs

The science and practice of proportionality in AI risk evaluations

Il documento esamina come il principio di proporzionalità, fondamentale nel diritto dell'UE, possa guidare lo sviluppo di metodi scientifici per calibrare le valutazioni dei rischi sistemici dei modelli di intelligenza artificiale generale, garantendo un equilibrio tra una gestione efficace dei rischi e la riduzione degli oneri per gli innovatori nell'ambito dell'attuazione dell'AI Act.

Carlos Mougan, Lauritz Morlock, Jair Aguirre, James R. M. Black, Jan Brauner, Simeon Campos, Sunishchal Dev, David Fernández Llorca, Alberto Franzin, Mario Fritz, Emilia Gómez, Friederike Grosse-Holz, Eloise Hamilton, Max Hasin, Jose Hernandez-Orallo, Dan Lahav, Luca Massarelli, Vasilios Mavroudis, Malcolm Murray, Patricia Paskov, Jaime Raldua, Wout Schellaert2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Il paper presenta DeliberationBench, un benchmark normativo che valuta l'influenza persuasiva dei modelli linguistici di grandi dimensioni (LLM) confrontandola con i sondaggi di opinione deliberativa, dimostrando attraverso un esperimento su larga scala che tali modelli esercitano effetti epistemicamente desiderabili e allineati agli standard democratici.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Questo studio interdisciplinare esamina l'emergere della "GPTheologia", un nuovo fenomeno di fede tecnologica in cui l'intelligenza artificiale viene percepita come entità divina, analizzando come le interazioni quotidiane con i modelli linguistici stiano sviluppando rituali e narrazioni che ricalcano strutture religiose tradizionali con profonde implicazioni etiche e sociali.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

A Review of the Negative Effects of Digital Technology on Cognition

Questo studio integrativo analizza oltre 500 ricerche per evidenziare come l'uso diffuso delle tecnologie digitali, inclusa l'intelligenza artificiale generativa, possa compromettere le capacità cognitive a lungo termine attraverso meccanismi come l'interferenza funzionale e la disregolazione neurochimica, creando un paradosso di efficienza-atrofia che richiede ulteriori indagini longitudinali.

Urška Žnidarič, Erik Štrumbelj, Octavian Machidon2026-03-12💻 cs

Quantal Response Equilibrium as a Measure of Strategic Sophistication: Theory and Validation for LLM Evaluation

Questo lavoro introduce un framework di valutazione basato sull'equilibrio di risposta quantale (QRE) per misurare la sofisticazione strategica dei modelli linguistici su una scala continua calibrata rispetto ai dati umani, superando i limiti delle metriche aggregate tradizionali attraverso la derivazione teorica di equilibri chiusi e la validazione empirica su oltre 1.800 giochi.

Mateo Pechon-Elkins, Jon Chun2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Questo studio valuta la capacità di generalizzazione di agenti di attacco informatico autonomi di fronte a cambiamenti imprevisti negli indirizzi IP, rivelando che, sebbene gli agenti basati su LLM ottenano i migliori risultati di adattamento, lo fanno a scapito di costi computazionali elevati, ridotta trasparenza e nuove vulnerabilità operative.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

Il paper presenta OmniGuide, un framework universale che migliora le prestazioni dei modelli generalisti robotici (VLA) su compiti complessi integrando diverse fonti di guida come modelli fondazionali 3D e VLM semantici tramite funzioni di energia differenziabili che influenzano l'azione del robot.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Model-Free Co-Optimization of Manufacturable Sensor Layouts and Deformation Proprioception

Questo lavoro presenta una pipeline computazionale basata sui dati che ottimizza in modo congiunto e senza modelli la disposizione dei sensori flessibili e i parametri di una rete neurale, migliorando significativamente l'accuratezza della previsione delle deformazioni in robotica soft e dispositivi indossabili rispettando al contempo i vincoli di fabbricabilità.

Yingjun Tian, Guoxin Fang, Aoran Lyu, Xilong Wang, Zikang Shi, Yuhu Guo, Weiming Wang, Charlie C. L. Wang2026-03-12💻 cs

Decision-Aware Uncertainty Evaluation of Vision-Language Model-Based Early Action Anticipation for Human-Robot Interaction

Questo lavoro presenta la prima valutazione sistematica dell'incertezza nei modelli visione-linguaggio per l'anticipazione delle azioni umane in contesti di interazione uomo-robot, introducendo nuovi protocolli e metriche per garantire previsioni affidabili e sicure anche in presenza di osservazioni parziali e ambigue.

Zhaoda Du, Michael Bowman, Qiaojie Zheng, Xiaoli Zhang2026-03-12💻 cs

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Il paper presenta FLA³, una piattaforma di apprendimento federato che integra meccanismi di autenticazione, autorizzazione e contabilità (AAA) conformi a XACML per garantire la sovranità dei dati e la conformità normativa, dimostrando attraverso studi reali e simulati che tale approccio governativo permette di ottenere prestazioni predittive paragonabili all'addestramento centralizzato nel contesto della ricerca sanitaria globale.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael Roberts2026-03-12💻 cs