cs.AI articoli | Gist.Science

HELM: Hierarchical and Explicit Label Modeling with Graph Learning for Multi-Label Image Classification

Il paper introduce HELM, un nuovo framework che combina token di classe specifici per la gerarchia, reti neurali a grafo e apprendimento auto-supervisionato per migliorare la classificazione multi-etichetta di immagini da telerilevamento, ottenendo prestazioni all'avanguardia anche in scenari con pochi dati etichettati.

Marjan Stoimchev, Boshko Koloski, Jurica Levatic, Dragi Kocev, Sašo Džeroski2026-03-13🤖 cs.AI

Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder

Questo studio propone un audit di equità meccanicistico che localizza i pregiudizi demografici a livello di singoli attention head nell'encoder visivo di CLIP, dimostrando che l'ablazione di specifici neuroni riduce efficacemente il bias di genere con un impatto minimo sulla precisione, mentre il bias legato all'età risulta più diffuso e meno localizzabile.

Alaa Yasser, Kittipat Phunjanna, Marcos Escudero Viñolo, Catarina Barata, Jenny Benois-Pineau2026-03-13🤖 cs.AI

DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

Il paper presenta DocSage, un framework agentic end-to-end che supera i limiti dei sistemi RAG e dei LLM esistenti per la risposta a domande su più documenti ed entità, integrando scoperta dinamica di schemi, estrazione di informazioni strutturate e ragionamento relazionale per ottenere miglioramenti significativi nell'accuratezza.

Teng Lin, Yizhang Zhu, Zhengxuan Zhang, Yuyu Luo, Nan Tang2026-03-13🤖 cs.AI

A Semi-Decentralized Approach to Multiagent Control

Il paper introduce un quadro teorico e un algoritmo esatto, denominato RS-SDA*, per il controllo semi-decentralizzato di agenti cooperativi in ambienti con incertezza comunicativa, estendendo il concetto di semi-Markov ai processi decisionali di Markov parzialmente osservabili (POMDP) per unificare diversi meccanismi di comunicazione esistenti.

Mahdi Al-Husseini, Mykel J. Kochenderfer, Kyle H. Wray2026-03-13🤖 cs.AI

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Il documento presenta un framework per l'acquisizione automatizzata di competenze procedurali per agenti AI, ottenuta attraverso l'estrazione e la standardizzazione di conoscenze da repository open-source come GitHub, che dimostra come tale approccio possa potenziare le capacità dei modelli linguistici e migliorare l'efficienza dell'apprendimento senza richiedere il riaddestramento del modello.

Shuzhen Bi, Mengsong Wu, Hao Hao, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

RADAR è un sistema autonomo a ciclo chiuso che genera dati robotici su larga scala senza intervento umano, combinando pianificazione semantica, apprendimento per imitazione e un meccanismo di ripristino causale dell'ambiente per superare i limiti di scalabilità e costo delle tradizionali raccolte dati.

Yongzhong Wang, Keyu Zhu, Yong Zhong, Liqiong Wang, Jinyu Yang, Feng Zheng2026-03-13🤖 cs.AI

VisiFold: Long-Term Traffic Forecasting via Temporal Folding Graph and Node Visibility

Il paper presenta VisiFold, un nuovo framework che utilizza un grafo temporale ripiegato e un meccanismo di visibilità dei nodi per superare le limitazioni computazionali e migliorare l'accuratezza nella previsione del traffico a lungo termine.

Zhiwei Zhang, Xinyi Du, Weihao Wang, Xuanchi Guo, Wenjuan Han2026-03-13🤖 cs.AI

Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI

Questo studio propone un sistema di rilevamento automatico dei tumori ovarici basato su diverse architetture di reti neurali convoluzionali, identificando il modello InceptionV3 come il più performante con un'accuratezza del 94% e integrando tecniche di Intelligenza Artificiale Spiegabile (XAI) per rendere trasparenti le decisioni del modello.

Md. Hasin Sarwar Ifty, Nisharga Nirjan, Labib Islam, M. A. Diganta, Reeyad Ahmed Ornate, Anika Tasnim, Md. Saiful Islam2026-03-13🤖 cs.AI

Hybrid Human-Agent Social Dilemmas in Energy Markets

Questo studio dimostra che l'introduzione di agenti artificiali nei mercati energetici ibridi favorisce la coordinazione e migliora i risultati collettivi, anche durante le fasi di adozione parziale, sebbene ciò possa generare asimmetrie strategiche a vantaggio dei non-adopter.

Isuri Perera, Frits de Nijs, Julian Garcia2026-03-13🤖 cs.AI

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Il paper identifica e quantifica una vulnerabilità strutturale negli agenti LLM ad alto privilegio, denominata "Trusted Executor Dilemma", che permette la fuoriuscita di dati privati tramite l'esecuzione acritica di istruzioni malevole nascoste nella documentazione, rivelando un persistente divario tra la conformità funzionale e la sicurezza che le attuali difese non riescono a mitigare.

Ching-Yu Kao, Xinfeng Li, Shenyu Dai, Tianze Qiu, Pengcheng Zhou, Eric Hanchen Jiang, Philip Sperl2026-03-13🤖 cs.AI

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Il paper introduce CreativeBench, un benchmark quantitativo per valutare la creatività delle macchine nella generazione di codice attraverso metriche di qualità e novità, e propone EvoRePE, una strategia di guida durante l'inferenza che migliora le capacità creative dei modelli sfruttando pattern di ricerca evolutiva.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang2026-03-13🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Questo articolo propone un quadro sistematico per l'operazionalizzazione delle norme sociali, legali, etiche, empatiche e culturali (SLEEC) negli agenti AI, colmando il divario tra principi astratti e requisiti concreti verificabili per garantire un allineamento dimostrabile ai valori umani.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley Townsend2026-03-13🤖 cs.AI

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

Il paper introduce ELISA, un agente ibrido di intelligenza artificiale interpretabile che unisce embedding di espressione scRNA-seq e modelli linguistici per trasformare direttamente i dati trascrittomici in ipotesi biologiche meccanicistiche, superando le prestazioni degli strumenti esistenti nella ricerca di tipi cellulari e nella generazione di scoperte biologiche fondate.

Omar Coser2026-03-13🧬 q-bio

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

Il paper presenta AdaFuse, un framework che accelera l'inferenza degli adattatori dinamici nei LLM combinando una strategia di pre-gating a livello di token con l'ottimizzazione di kernel CUDA fusi, riducendo la latenza di decodifica di oltre 2,4 volte mantenendo la precisione.

Qiyang Li, Rui Kong, Yuchen Li, Hengyi Cai, Shuaiqiang Wang, Linghe Kong, Guihai Chen, Dawei Yin2026-03-13🤖 cs.AI

The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

Il paper introduce "Mirror", un pattern di progettazione basato su una rigorosa geometria dei dati che, utilizzando un corpus curato e un classificatore lineare leggero, supera le prestazioni dei grandi modelli neurali nel rilevamento delle iniezioni di prompt, offrendo una soluzione più rapida, deterministica e auditabile per il primo livello di difesa.

J Alex Corll2026-03-13🤖 cs.AI

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Il rapporto descrive la creazione di Bielik-Minitron-7B, un modello linguistico compresso di 7,35 miliardi di parametri ottimizzato per le lingue europee, che combina potatura strutturata e distillazione della conoscenza per ridurre i parametri del 33,4% mantenendo il 90% delle prestazioni originali e aumentando la velocità di inferenza fino al 50%.

Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwozdziej2026-03-13💬 cs.CL

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Il paper propone "Think While Watching", un framework di ragionamento video in streaming che, ancorando la memoria a livello di segmento e permettendo la percezione e la generazione simultanee, supera i limiti dei modelli esistenti nel ragionamento multi-turno su flussi video continui, ottenendo risultati superiori su benchmark specifici con una riduzione significativa dei token di output.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)2026-03-13💬 cs.CL

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Il paper propone EnTransformer, un framework di previsione generativa basato su Transformer che integra l'engression per apprendere distribuzioni condizionali multivariate senza assunzioni parametriche, ottenendo previsioni probabilistiche ben calibrate e superiori rispetto ai modelli esistenti su diversi benchmark.

Rajdeep Pathak, Rahul Goswami, Madhurima Panja, Palash Ghosh, Tanujit Chakraborty2026-03-13📊 stat

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Questo studio rivela che i principali modelli linguistici, inclusi i più recenti, spesso falliscono nel rifiutare contenuti dannosi forniti dagli utenti anche durante l'esecuzione di compiti apparentemente innocui, evidenziando una vulnerabilità etica a livello di contenuto che richiede nuove misure di sicurezza.

Junjie Chu, Yiting Qu, Ye Leng, Michael Backes, Yun Shen, Savvas Zannettou, Yang Zhang2026-03-13🤖 cs.AI

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Il paper introduce MobileKernelBench, un framework di valutazione che rivela le attuali limitazioni degli LLM nella generazione di kernel efficienti per dispositivi mobili, e propone MoKA, un agente multi-LLM che supera tali ostacoli raggiungendo un tasso di compilazione del 93,7% e significativi miglioramenti delle prestazioni.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

← Precedente Successivo →