cs.AI articoli | Gist.Science

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Questo articolo propone un nuovo quadro teorico e metodologico per i casi di sicurezza dell'IA avanzata, criticando gli approcci attuali della comunità di allineamento e integrando lezioni tratte da settori ad alta criticità come l'aerospaziale e il nucleare per sviluppare argomentazioni più robuste e difendibili, con un caso di studio specifico su allineamento ingannevole e capacità CBRN.

Shaun Feakins, Ibrahim Habli, Phillip Morgan2026-03-11🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

Questo lavoro propone un framework di apprendimento per rinforzo multi-livello che, attraverso la compressione gerarchica dei processi decisionali e un curriculum didattico, facilita l'astrazione, la riduzione della stocasticità e il trasferimento di competenze tra diversi problemi e livelli di complessità.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Questo lavoro presenta un framework che utilizza un modello linguistico su larga scala per automatizzare il controllo e la misurazione dei qubit superconduttori, dimostrando la sua efficacia nella caratterizzazione autonoma dei risonatori e nella riproduzione di procedure di caratterizzazione quantistica non distruttiva.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Il paper presenta TDAD, una metodologia che tratta i prompt degli agenti AI come artefatti compilati, trasformando le specifiche comportamentali in test eseguibili e affinando iterativamente i prompt per garantire la conformità comportamentale e mitigare i rischi di regressione e spec gaming.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Il paper presenta Scale-Plan, un framework scalabile che combina modelli linguistici e pianificazione simbolica per generare rappresentazioni compatte di compiti multi-robot eterogenei, superando le limitazioni di allucinazione e scalabilità degli approcci esistenti attraverso la filtrazione delle informazioni irrilevanti e la validazione su un nuovo benchmark MAT2-THOR.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Lo studio dimostra che le metriche di recupero basate sulla copertura sono forti indicatori predittivi della completezza informativa nelle risposte generate dai sistemi RAG, specialmente quando gli obiettivi di recupero e generazione sono allineati.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

Il paper introduce GenGNN, un framework modulare basato su message-passing che dimostra come encoder espressivi complessi non siano strettamente necessari per la generazione di grafi discreti, ottenendo validità e velocità di inferenza superiori rispetto ai modelli basati su transformer.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Il paper presenta MASEval, un framework-agnostic che estende la valutazione dei sistemi multi-agente dall'analisi dei soli modelli a quella dell'intero sistema, dimostrando come le scelte implementative abbiano un impatto sulle prestazioni pari a quella della scelta del modello.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Il paper presenta MuCTaL, un framework di localizzazione tumorale leggero e addestrato su quattro tipi di cancro che, pur mostrando una buona generalizzazione su un quinto tipo non visto, dimostra come l'addestramento bilanciato su scala moderata possa ottenere prestazioni elevate per l'analisi digitale delle patologie.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Il documento presenta il LLM Delegate Protocol (LDP), un protocollo di comunicazione nativo per l'intelligenza artificiale che introduce identità dei modelli, tracciamento della provenienza e sessioni governate per abilitare una delega più efficiente e controllabile nei sistemi multi-agente, dimostrando attraverso un'implementazione su JamJet significativi miglioramenti nella latenza e nell'efficienza dei token, sebbene con risultati contrastanti sulla qualità complessiva e la necessità di verifica per i metadati di fiducia.

Sunil Prakash2026-03-11🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Questo studio identifica tre proprietà strutturali misurabili—l'allineamento con euristiche greedy, la semplicità della composizione interna e la rappresentazione visiva ordinata—che guidano le preferenze umane per soluzioni interpretabili in problemi di ottimizzazione combinatoria, fornendo una base per bilanciare ottimalità e comprensibilità nei sistemi di supporto decisionale.

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip Melinscak2026-03-11🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Questo studio presenta un'analisi controllata di come profondità di ricerca, strategie di recupero e budget di completamento influenzino l'accuratezza e i costi nei sistemi RAG agenziali vincolati da budget, fornendo linee guida pratiche per la configurazione di tali pipeline.

Kyle McCleary, James Ghawaly2026-03-11🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Il paper propone FSbuHD, un nuovo modello di selezione delle caratteristiche basato sulla teoria degli insiemi fuzzy-rough per sistemi informativi ibridi, che supera le limitazioni computazionali e il rumore dei metodi tradizionali riformulando il problema come un'ottimizzazione risolvibile tramite algoritmi meta-euristici e operando in modalità normale e ottimista.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

Il paper propone NetDiffuser, un nuovo framework che utilizza modelli di diffusione e una categorizzazione delle caratteristiche per generare esempi avversari naturali capaci di ingannare i sistemi di rilevamento delle intrusioni di rete basati sull'apprendimento profondo con un successo significativamente superiore rispetto alle tecniche esistenti.

Pratyay Kumar, Abu Saleh Md Tayeen, Satyajayant Misra, Huiping Cao, Jiefei Liu, Qixu Gong, Jayashree Harikumar2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Questo lavoro presenta un'analisi esaustiva di nove famiglie di limiti per la previsione selettiva e introduce il "Transfer-Informed Betting" (TIB), un metodo innovativo che combina sequenze di scommesse basate su martingale con il trasferimento di conoscenza tra domini per ottenere garanzie di rischio più strette in scenari con dati scarsi, dimostrando superiorità empirica su diversi benchmark rispetto ai metodi conformali e alle tecniche esistenti.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Il paper propone FedLECC, una strategia di selezione dei client per l'Apprendimento Federato che, combinando la similarità nella distribuzione delle etichette e la perdita locale, migliora significativamente l'accuratezza e riduce l'overhead di comunicazione in scenari con dati non-IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Questo lavoro propone il primo approccio completamente differenziabile per scoprire le "Strong Lottery Tickets" utilizzando porte di Bernoulli rilassate in modo continuo, permettendo di ottenere reti neurali sparse fino al 90% con perdita minima di accuratezza attraverso l'ottimizzazione end-to-end dei parametri di gating senza modificare i pesi inizializzati.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Questo studio dimostra che le metriche di visibilità nei motori di ricerca generativi sono intrinsecamente variabili e non deterministiche, sostenendo la necessità di adottare un framework statistico che includa stime di incertezza e intervalli di confidenza invece di affidarsi a misurazioni puntuali singole.

Ronald Sielinski2026-03-11🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Questo studio introduce un benchmark sintetico e propone un approccio innovativo che utilizza modelli visione-linguaggio fondazionali (Gemma 3 e Qwen3-VL) per generare automaticamente configurazioni JSON per simulazioni di piante da immagini di droni, offrendo un framework scalabile per la creazione di gemelli digitali in agricoltura.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

← Precedente Successivo →