cs.AI articoli | Gist.Science

Arbiter: Detecting Interference in LLM Agent System Prompts

Il paper presenta Arbiter, un framework che combina regole di valutazione formale e analisi multi-modello per rilevare pattern di interferenza nei prompt di sistema degli agenti LLM per la codifica, identificando vulnerabilità critiche e dimostrando come l'architettura del prompt influenzi le classi di fallimento.

Tony Mason2026-03-11🤖 cs.AI

Security Considerations for Multi-agent Systems

Questo studio caratterizza sistematicamente il panorama delle minacce dei sistemi multi-agente (MAS) e valuta quantitativamente 16 framework di sicurezza, rivelando che nessuno di essi copre la maggior parte delle categorie di rischio, in particolare la non deterministica e la perdita di dati, con l'iniziativa OWASP Agentic Security Initiative che ottiene la copertura complessiva più elevata.

Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty2026-03-11🤖 cs.AI

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Questo studio analizza le disparità di genere nei modelli di rilevamento dei deepfake audio, dimostrando che l'uso esclusivo delle metriche tradizionali nasconde ingiustizie distributive che possono essere svelate solo attraverso una valutazione specifica dell'equità.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila2026-03-11🤖 cs.AI

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Questo lavoro propone l'algoritmo CMA-ES-IG, che migliora l'apprendimento delle preferenze degli utenti non esperti per i robot incorporando considerazioni sull'esperienza utente nella generazione di query, ottenendo risultati superiori rispetto alle tecniche esistenti in termini di scalabilità, robustezza al rumore e gradimento degli utenti.

Nathaniel Dennler, Zhonghao Shi, Yiran Tao, Andreea Bobu, Stefanos Nikolaidis, Maja Mataric2026-03-11🤖 cs.AI

Meissa: Multi-modal Medical Agentic Intelligence

Il paper presenta Meissa, un modello linguistico multimodale medico leggero da 4 miliardi di parametri che, grazie a tecniche di distillazione avanzate, abilita capacità agentiche offline con prestazioni competitive rispetto ai modelli proprietari, riducendo drasticamente costi, latenza e rischi per la privacy.

Yixiong Chen, Xinyi Bai, Yue Pan, Zongwei Zhou, Alan Yuille2026-03-11🤖 cs.AI

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Il paper propone l'"AI fenomenologia" come quadro di ricerca per comprendere l'esperienza vissuta e in evoluzione tra umani e intelligenza artificiale, offrendo strumenti metodologici e concetti di progettazione basati su studi longitudinali per superare le tradizionali metriche di performance e cogliere la complessità soggettiva di tale interazione.

Bhada Yun, Evgenia Taranova, Dana Feng, Renn Su, April Yi Wang2026-03-11🤖 cs.AI

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Il paper introduce MEMO, un framework di auto-gioco che ottimizza il contesto di inferenza tramite un sistema di memoria persistente e un'esplorazione guidata da TrueSkill, riducendo significativamente la variabilità e migliorando le prestazioni nei giochi multi-agente LLM a più turni.

Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang Wang2026-03-11🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Il paper introduce Pichay, un sistema di paging su richiesta che tratta la finestra di contesto degli LLM come una gerarchia di memoria virtuale, riducendo drasticamente il consumo di risorse attraverso l'evizione dinamica dei contenuti obsoleti e il ripristino selettivo solo quando necessario.

Tony Mason2026-03-11🤖 cs.AI

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Questo lavoro presenta una pipeline automatizzata che utilizza modelli linguistici di grandi dimensioni (LLM) per rilevare e analizzare le cause profonde dei test flaky nel software quantistico, espandendo un dataset esistente e dimostrando l'efficacia di modelli come Google Gemini nel classificare tali problemi con elevata precisione.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei Zhang2026-03-11🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

Il paper presenta PlayWorld, un sistema autonomo e scalabile che apprende modelli di mondo video ad alta fedeltà attraverso l'auto-gioco robotico non supervisionato, superando i limiti dei dati umani per prevedere interazioni fisiche complesse e migliorare le prestazioni delle politiche di controllo robotico nel mondo reale.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha Majumdar2026-03-11🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

Questo articolo propone un toolkit conservativo per valutare l'identità negli agenti linguistici, distinguendo tra la capacità di parlare di un sé stabile e l'effettiva organizzazione strutturale di tale identità attraverso l'applicazione della Teoria dello Stack a tracce di scaffolding.

Elija Perrier, Michael Timothy Bennett2026-03-11🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Il paper introduce EPOCH, un protocollo ingegneristico che organizza l'ottimizzazione multi-round di sistemi eterogenei in fasi di costruzione della baseline e auto-miglioramento iterativo, strutturando ogni round in fasi distinte di pianificazione, implementazione e valutazione per garantire stabilità, riproducibilità e tracciabilità nei flussi di lavoro autonomi.

Zhanlin Liu, Yitao Li, Munirathnam Srikanth2026-03-11🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Il paper propone Sim2Act, un framework robusto per l'apprendimento simulazione-decisione che combina una calibrazione avversariale e una strategia di perturbazione relativa ai gruppi per migliorare l'affidabilità delle politiche in contesti critici come le catene di approvvigionamento, superando i limiti degli approcci esistenti che spesso sacrificano azioni ad alto rischio e alto rendimento.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Il paper presenta Doki, un'interfaccia basata sul testo che rivoluziona la creazione di video generativi consentendo agli utenti di scrivere, strutturare e modificare storie visive direttamente in un documento testuale, rendendo il processo accessibile a tutti senza la necessità di strumenti specializzati.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li2026-03-11🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Questo studio dimostra che l'integrazione di dati di sentiment estratti da un modello LLM finetunato (Qwen3) da notizie in inglese e cinese migliora significativamente la previsione dei prezzi dell'alluminio, specialmente durante i periodi di alta volatilità, superando i modelli basati esclusivamente su dati tabulari tradizionali.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

← Precedente Successivo →