cs.AI articoli | Gist.Science

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Il paper propone "Proof-of-Guardrail", un sistema che utilizza ambienti di esecuzione attendibili (TEE) per fornire prove crittografiche verificabili che le risposte degli agenti AI sono state filtrate da specifici guardrail open-source, garantendo l'integrità del processo di sicurezza senza rivelare la logica proprietaria dell'agente, pur evidenziando i rischi residui di inganno da parte di sviluppatori malevoli.

Xisen Jin, Michael Duan, Qin Lin, Aaron Chan, Zhenglun Chen, Junyi Du, Xiang Ren2026-03-09🤖 cs.AI

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Il paper presenta StreamWise, un sistema di serving adattivo e modulare che ottimizza l'orchestrazione di modelli generativi multimodali su hardware eterogeneo per abilitare la creazione di podcast video in tempo reale, bilanciando dinamicamente latenza, costi e qualità.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini2026-03-09🤖 cs.AI

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Questo articolo introduce il concetto di "collasso dell'ambiguità" nei modelli linguistici di grandi dimensioni, delineando una tassonomia dei rischi epistemici che ne derivano a livello di processo, output ed ecosistema, e proponendo principi di mitigazione per preservare la negoziazione umana del significato nelle interpretazioni di termini controversi.

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour2026-03-09🤖 cs.AI

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Il paper presenta MaCS, un semplice framework di regolarizzazione che migliora la calibrazione e la robustezza dei modelli di visione artificiale imponendo un margine tra le classi e la coerenza delle previsioni su input perturbati, senza richiedere modifiche architetturali o dati aggiuntivi.

Salim Khazem2026-03-09🤖 cs.AI

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Il paper presenta Lexara, un toolkit guidato dagli utenti per valutare i modelli linguistici nell'analisi visiva conversazionale, che integra casi di test realistici, metriche interpretabili per la qualità visiva e linguistica e un'interfaccia interattiva per superare le attuali limitazioni tecniche e metodologiche.

Srishti Palani, Vidya Setlur2026-03-09🤖 cs.AI

Evaluating LLM Alignment With Human Trust Models

Questo studio analizza come il modello linguistico GPT-J-6B rappresenti internamente il concetto di fiducia, rivelando che la sua allineamento strutturale corrisponde maggiormente al modello socio-cognitivo di Castelfranchi rispetto ad altri modelli umani.

Anushka Debnath, Stephen Cranefield, Bastin Tony Roy Savarimuthu, Emiliano Lorini2026-03-09🤖 cs.AI

Remote Sensing Image Classification Using Deep Ensemble Learning

Questo studio propone un modello di apprendimento profondo basato su ensemble che integra CNN e Vision Transformers per la classificazione di immagini telerilevate, superando i limiti delle architetture singole e ottenendo prestazioni superiori su diversi dataset grazie a un'efficiente gestione delle risorse computazionali.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Il paper presenta MACRO, un agente medico auto-evolutivo che supera i limiti dei sistemi statici scoprendo autonomamente e integrando nuove competenze strumentali composite basate sull'esperienza clinica, migliorando così l'accuratezza e la generalizzazione nell'orchestrazione di strumenti per l'interpretazione di immagini mediche.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Questo articolo offre una valutazione pratica delle capacità attuali e delle barriere all'adozione dei modelli fondazionali e degli agenti di intelligenza artificiale nella patologia computazionale, analizzando le sfide economiche, tecniche e normative necessarie per la loro responsabile integrazione nella pratica clinica globale.

Qian Da, Yijiang Chen, Min Ju, Zheyi Ji, Albert Zhou, Wenwen Wang, Matthew A Abikenari, Philip Chikontwe, Guillaume Larghero, Bowen Chen, Peter Neiglinger, Dingrong Zhong, Shuhao Wang, Wei Xu, Drew Williamson, German Corredor, Sen Yang, Le Lu, Xiao Han, Kun-Hsing Yu, Jun-zhou Huang, Laura Barisoni, Geert Litjens, Anant Madabhushi, Lifeng Zhu, Chaofu Wang, Junhan Zhao, Weiguo Hu2026-03-09🤖 cs.AI

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Il paper presenta JHCodec, un codec audio neurale che utilizza una funzione di perdita di ricostruzione delle rappresentazioni auto-supervisionate (SSRR) per ottenere un'alta intelligibilità e una bassa latenza nel streaming, consentendo un'architettura a zero lookahead e riducendo significativamente i costi di addestramento.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak2026-03-09🤖 cs.AI

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Il paper presenta ConStory-Bench, un nuovo benchmark e un sistema di verifica automatizzata (ConStory-Checker) progettati per valutare e analizzare le inconsistenze narrative nella generazione di storie lunghe da parte dei modelli linguistici, rivelando che tali errori sono più frequenti nei fatti e nella temporalità e tendono a manifestarsi nella parte centrale delle narrazioni.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Il paper introduce RePO, un nuovo approccio di ottimizzazione che combina l'esplorazione tramite apprendimento per rinforzo con reward verificabili e la guida di riferimento tramite addestramento supervisionato, superando i limiti delle tecniche attuali nell'ottimizzazione molecolare basata su LLM in assenza di dati di traiettoria.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

LUMINA è un framework di esplorazione architetturale GPU guidato da modelli linguistici (LLM) che, attraverso l'analisi automatizzata dei colli di bottiglia e l'auto-correzione delle regole di ottimizzazione, identifica in modo efficiente design superiori rispetto all'A100 con un costo di ricerca drasticamente inferiore rispetto ai metodi tradizionali e basati su machine learning.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang Xiong2026-03-09🤖 cs.AI

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Il paper propone ProEvolve, un framework basato su grafi che rende programmabile l'evoluzione degli ambienti di benchmark per agenti LLM, permettendo di generare dinamicamente scenari variabili per valutare meglio la loro adattabilità ai cambiamenti del mondo reale.

Guangrui Li, Yaochen Xie, Yi Liu, Ziwei Dong, Xingyuan Pan, Tianqi Zheng, Jason Choi, Michael J. Morais, Binit Jha, Shaunak Mishra, Bingrou Zhou, Chen Luo, Monica Xiao Cheng, Dawn Song2026-03-09🤖 cs.AI

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Il paper introduce CORE-Seg, un framework end-to-end che integra il ragionamento cognitivo e la segmentazione medica tramite un adattatore di prompt guidato semanticamente e un meccanismo di ricompensa adattivo, ottenendo risultati all'avanguardia nella segmentazione di lesioni complesse grazie al benchmark ComLesion-14K.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Il paper presenta DeepFact, un framework che introduce un metodo di benchmarking evolutivo chiamato "Audit-then-Score" per migliorare l'affidabilità della verifica dei fatti nei report di ricerca approfondita, accompagnato da un agente di valutazione che supera i sistemi esistenti.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Questo studio presenta un framework integrato che combina un'architettura Node Transformer con l'analisi del sentiment basata su BERT per la previsione dei prezzi azionari, ottenendo risultati superiori rispetto ai modelli tradizionali grazie alla capacità di catturare le dipendenze cross-settoriali e l'impatto delle notizie, come dimostrato su 20 titoli S&P 500 con un errore medio assoluto percentuale (MAPE) dell'0,80%.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Il paper presenta BlackMirror, un framework innovativo e senza addestramento per il rilevamento di backdoor nei modelli text-to-image in scenari black-box, che individua anomalie semantiche tramite l'allineamento tra istruzioni e risposte visive invece di basarsi sulla similarità delle immagini generate.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Il paper introduce RAC (Rectified Flow Auto Coder), un'architettura ispirata al Rectified Flow che sostituisce i VAE tradizionali offrendo decodifica multi-passo correggibile, inferenza bidirezionale con riduzione dei parametri e una qualità generativa superiore a costi computazionali inferiori.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Addressing the Ecological Fallacy in Larger LMs with Human Context

Questo studio dimostra che modellare il contesto linguistico dell'autore, affrontando la fallacia ecologica tramite tecniche come HuLM e HuFT, migliora significativamente le prestazioni di un modello Llama da 8 miliardi di parametri rispetto ai metodi di addestramento standard.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

← Precedente Successivo →