cs.AI articoli | Gist.Science

Differentially Private Multimodal In-Context Learning

Il paper presenta DP-MTV, il primo framework che abilita l'apprendimento in contesto multimodale con molte dimostrazioni garantendo la privacy differenziale formale attraverso l'aggregazione di dati in vettori di compito compatti nello spazio delle attivazioni, permettendo così l'inferenza illimitata con un singolo aggiunta di rumore e mantenendo alte prestazioni su benchmark visivi e linguistici.

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near2026-03-06🤖 cs.AI

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Il paper propone AoD-IP, un nuovo framework per la protezione della proprietà intellettuale dei modelli visione-linguaggio che abilita un'autorizzazione dinamica su richiesta e una valutazione della legalità, superando i limiti delle definizioni statiche tradizionali consentendo agli utenti di adattare flessibilmente i domini autorizzati durante il deployment.

Lianyu Wang, Meng Wang, Huazhu Fu + 1 more2026-03-06🤖 cs.AI

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

EvoTool è un framework auto-evolutivo che ottimizza le politiche di utilizzo degli strumenti negli agenti LLM attraverso un paradigma evolutivo privo di gradienti, basato su tre meccanismi innovativi di attribuzione della colpa, mutazione mirata e selezione della popolazione, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Shuo Yang, Soyeon Caren Han, Xueqi Ma + 3 more2026-03-06🤖 cs.AI

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Il paper introduce AgentSCOPE, un benchmark e un framework basato sul "Privacy Flow Graph" che dimostra come la valutazione della privacy negli sistemi agentici debba analizzare ogni fase intermedia del flusso informativo, rivelando che oltre l'80% degli scenari presenta violazioni non rilevabili dalle sole valutazioni degli output finali.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy2026-03-06🔒 cs.CR

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Lo studio dimostra che gli interventi di allineamento nei modelli linguistici, sebbene efficaci in inglese, possono provocare un "effetto rimbalzo" in altre lingue come il giapponese, generando una dissociazione tra sicurezza superficiale e patologie collettive che riflette le dinamiche culturali e linguistiche dei dati di addestramento.

Hiroki Fukui2026-03-06🤖 cs.AI

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Il documento descrive un flusso di lavoro deterministico e riproducibile implementato in `cad_processor.py` che elabora estratti amministrativi per generare report sui costi per studente, arricchiti da una stratificazione fuzzy interpretabile per classificare i dati in fasce di costo.

Shane Lee, Stella Ng2026-03-06🤖 cs.AI

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Il paper propone VPWEM, una politica visuomotoria non markoviana che integra memoria di lavoro ed episodica tramite un compressore contestuale basato su Transformer, permettendo ai robot di gestire compiti a lungo termine con costi computazionali costanti e superando significativamente gli stati dell'arte su benchmark di manipolazione.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

Il paper introduce EVMbench, un benchmark che valuta la capacità degli agenti AI di rilevare, correggere e sfruttare vulnerabilità negli smart contract, dimostrando che i modelli più avanzati sono già in grado di eseguire attacchi end-to-end su istanze reali della blockchain Ethereum.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Il paper introduce BandPO, un nuovo metodo di ottimizzazione per l'apprendimento per rinforzo dei modelli linguistici che sostituisce il clipping canonico con un operatore teorico unificato e consapevole delle probabilità, risolvendo il collo di bottiglia esplorativo e prevenendo il collasso dell'entropia senza compromettere la stabilità.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Knowledge-informed Bidding with Dual-process Control for Online Advertising

Il paper propone KBD, un metodo innovativo per l'ottimizzazione delle offerte nella pubblicità online che integra l'esperienza umana e un controllo a doppio processo (unendo regole PID e Decision Transformer) per superare i limiti dei modelli black-box tradizionali, migliorando la coerenza globale e l'adattabilità in scenari complessi.

Huixiang Luo, Longyu Gao, Yaqi Liu + 3 more2026-03-06🤖 cs.AI

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Il paper propone un nuovo framework di pre-addestramento basato su compiti consapevoli della posizione per migliorare la capacità dei modelli di rispondere a domande visive mediche confrontando immagini, ottenendo risultati all'avanguardia nel rilevamento delle variazioni cliniche nelle radiografie del torace.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

Retrieval-Augmented Generation with Covariate Time Series

Il paper presenta RAG4CTS, un framework di Retrieval-Augmented Generation privo di addestramento e consapevole dei regimi, progettato per gestire serie temporali con covariate in scenari industriali a scarsità di dati, come la manutenzione predittiva delle valvole PRSOV, dove ha dimostrato prestazioni superiori rispetto agli stati dell'arte e un funzionamento reale senza falsi allarmi.

Kenny Ye Liang, Zhongyi Pei, Huan Zhang + 3 more2026-03-06🤖 cs.AI

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

Il paper introduce la Confidence-Weighted Preference Optimization (CW-PO), un framework che utilizza le valutazioni ad alta confidenza di un modello linguistico debole per re-pesare i dati di addestramento, permettendo di ottenere prestazioni superiori rispetto alle annotazioni umane complete con solo il 20% dei dati etichettati da umani.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

Il paper introduce MPCEval, un benchmark e una suite di valutazione task-aware che fornisce metriche quantitative, senza riferimento e riproducibili per analizzare la generazione di conversazioni multi-partecipante, evidenziando come la valutazione multidimensionale riveli caratteristiche specifiche dei modelli che le metriche a punteggio singolo tendono a nascondere.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Il paper propone MOUE, un'architettura Mixture-of-Experts generalizzata che introduce la "larghezza virtuale" riutilizzando esperti universali tra i livelli per superare i limiti di scalabilità, risolvendo le sfide di routing e bilanciamento del carico attraverso una topologia rotazionale sfalsata e meccanismi di correzione specifici, ottenendo così prestazioni superiori rispetto ai modelli MoE tradizionali.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Il paper presenta 3D-RFT, il primo framework che estende il Reinforcement Learning con ricompense verificabili (RLVR) alla comprensione delle scene 3D basata su video, ottimizzando direttamente le metriche di valutazione attraverso un processo di fine-tuning ibrido SFT e GRPO per ottenere prestazioni state-of-the-art superiori a modelli più grandi.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Rethinking Representativeness and Diversity in Dynamic Data Selection

Il paper propone un nuovo framework di selezione dinamica dei dati che ridefinisce rappresentatività e diversità a livello di fattori di caratteristica e di processo, utilizzando un autoencoder sparsa e una penalità di frequenza d'uso per accelerare l'addestramento mantenendo o superando l'accuratezza sui dati completi.

Yuzhe Zhou, Zhenglin Hua, Haiyun Guo + 1 more2026-03-06🤖 cs.AI

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Uno studio randomizzato su 164 studenti di giurisprudenza dimostra che un breve intervento formativo è fondamentale per aumentare l'adozione e migliorare le prestazioni nell'uso della generazione di intelligenza artificiale (GenAI) per l'analisi legale, mentre il semplice accesso senza formazione non produce benefici e può addirittura ridurre la qualità delle risposte.

Benjamin M. Chen, Hong Bao2026-03-06✓ Author reviewed ⓘ🤖 cs.AI

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Il paper propone TIPS, un metodo di Inverse Propensity Scoring consapevole del tempo che corregge i bias di selezione ed esposizione nelle raccomandazioni sequenziali modellando le dipendenze temporali per distinguere accuratamente tra item non esposti e non interessanti.

Sirui Huang, Jing Long, Qian Li + 2 more2026-03-06🤖 cs.AI

← Precedente Successivo →