cs.AI articoli | Gist.Science

SEA-TS: Self-Evolving Agent for Autonomous Code Generation of Time Series Forecasting Algorithms

Il paper presenta SEA-TS, un agente autonomo in grado di generare, validare e ottimizzare algoritmi di previsione delle serie temporali attraverso un ciclo di auto-evoluzione che combina ricerca MCTS, revisione del codice e ragionamento globale, ottenendo risultati superiori rispetto ai metodi esistenti e scoprendo nuovi pattern architetturali innovativi.

Longkun Xu, Xiaochun Zhang, Qiantu Tuo + 1 more2026-03-06🤖 cs.AI

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Questo studio dimostra che è possibile prevedere con un'accuratezza dell'80,4% il tipo di lancio di baseball analizzando esclusivamente la cinematica 3D del corpo del lanciatore, rivelando che la meccanica del busto e la posizione del polso sono i fattori più determinanti, mentre le varianti di presa non sono distinguibili dal movimento corporeo.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Il paper presenta DeformTrace, un modello innovativo basato su stati spaziali deformabili e token di relay che supera le limitazioni delle tecniche attuali per la localizzazione temporale delle falsificazioni, offrendo prestazioni all'avanguardia con maggiore efficienza e robustezza.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Il paper introduce STEM-Bench, il primo benchmark per valutare la memoria nei dialoghi in streaming, e propone ProStream, un framework di memoria gerarchica proattiva che risolve il dilemma tra fedeltà ed efficienza permettendo un richiamo ad hoc e uno stato di conoscenza limitato senza sacrificare la precisione.

Bingbing Wang, Jing Li, Ruifeng Xu2026-03-06🤖 cs.AI

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Il paper propone FedAFD, un quadro unificato per l'apprendimento federato multimodale che, attraverso allineamento avversariale, fusione adattiva e distillazione guidata dalla similarità, risolve le sfide dell'eterogeneità dei dati e dei modelli per migliorare le prestazioni sia lato client che server.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Gli autori propongono un metodo di campionamento privo di addestramento e a basso costo che migliora la diversità e le prestazioni Pass@ $k$ dei Modelli Linguistici Diffusivi penalizzando attivamente la ridondanza tra i campioni generati, ottenendo risultati superiori su benchmark come HumanEval e GSM8K.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Differentially Private Multimodal In-Context Learning

Il paper presenta DP-MTV, il primo framework che abilita l'apprendimento in contesto multimodale con molte dimostrazioni garantendo la privacy differenziale formale attraverso l'aggregazione di dati in vettori di compito compatti nello spazio delle attivazioni, permettendo così l'inferenza illimitata con un singolo aggiunta di rumore e mantenendo alte prestazioni su benchmark visivi e linguistici.

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near2026-03-06🤖 cs.AI

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Il paper propone AoD-IP, un nuovo framework per la protezione della proprietà intellettuale dei modelli visione-linguaggio che abilita un'autorizzazione dinamica su richiesta e una valutazione della legalità, superando i limiti delle definizioni statiche tradizionali consentendo agli utenti di adattare flessibilmente i domini autorizzati durante il deployment.

Lianyu Wang, Meng Wang, Huazhu Fu + 1 more2026-03-06🤖 cs.AI

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

EvoTool è un framework auto-evolutivo che ottimizza le politiche di utilizzo degli strumenti negli agenti LLM attraverso un paradigma evolutivo privo di gradienti, basato su tre meccanismi innovativi di attribuzione della colpa, mutazione mirata e selezione della popolazione, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Shuo Yang, Soyeon Caren Han, Xueqi Ma + 3 more2026-03-06🤖 cs.AI

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Il paper introduce AgentSCOPE, un benchmark e un framework basato sul "Privacy Flow Graph" che dimostra come la valutazione della privacy negli sistemi agentici debba analizzare ogni fase intermedia del flusso informativo, rivelando che oltre l'80% degli scenari presenta violazioni non rilevabili dalle sole valutazioni degli output finali.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy2026-03-06🔒 cs.CR

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Lo studio dimostra che gli interventi di allineamento nei modelli linguistici, sebbene efficaci in inglese, possono provocare un "effetto rimbalzo" in altre lingue come il giapponese, generando una dissociazione tra sicurezza superficiale e patologie collettive che riflette le dinamiche culturali e linguistiche dei dati di addestramento.

Hiroki Fukui2026-03-06🤖 cs.AI

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Il documento descrive un flusso di lavoro deterministico e riproducibile implementato in `cad_processor.py` che elabora estratti amministrativi per generare report sui costi per studente, arricchiti da una stratificazione fuzzy interpretabile per classificare i dati in fasce di costo.

Shane Lee, Stella Ng2026-03-06🤖 cs.AI

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Il paper propone VPWEM, una politica visuomotoria non markoviana che integra memoria di lavoro ed episodica tramite un compressore contestuale basato su Transformer, permettendo ai robot di gestire compiti a lungo termine con costi computazionali costanti e superando significativamente gli stati dell'arte su benchmark di manipolazione.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

Il paper introduce EVMbench, un benchmark che valuta la capacità degli agenti AI di rilevare, correggere e sfruttare vulnerabilità negli smart contract, dimostrando che i modelli più avanzati sono già in grado di eseguire attacchi end-to-end su istanze reali della blockchain Ethereum.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Il paper introduce BandPO, un nuovo metodo di ottimizzazione per l'apprendimento per rinforzo dei modelli linguistici che sostituisce il clipping canonico con un operatore teorico unificato e consapevole delle probabilità, risolvendo il collo di bottiglia esplorativo e prevenendo il collasso dell'entropia senza compromettere la stabilità.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Knowledge-informed Bidding with Dual-process Control for Online Advertising

Il paper propone KBD, un metodo innovativo per l'ottimizzazione delle offerte nella pubblicità online che integra l'esperienza umana e un controllo a doppio processo (unendo regole PID e Decision Transformer) per superare i limiti dei modelli black-box tradizionali, migliorando la coerenza globale e l'adattabilità in scenari complessi.

Huixiang Luo, Longyu Gao, Yaqi Liu + 3 more2026-03-06🤖 cs.AI

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Il paper propone un nuovo framework di pre-addestramento basato su compiti consapevoli della posizione per migliorare la capacità dei modelli di rispondere a domande visive mediche confrontando immagini, ottenendo risultati all'avanguardia nel rilevamento delle variazioni cliniche nelle radiografie del torace.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

Retrieval-Augmented Generation with Covariate Time Series

Il paper presenta RAG4CTS, un framework di Retrieval-Augmented Generation privo di addestramento e consapevole dei regimi, progettato per gestire serie temporali con covariate in scenari industriali a scarsità di dati, come la manutenzione predittiva delle valvole PRSOV, dove ha dimostrato prestazioni superiori rispetto agli stati dell'arte e un funzionamento reale senza falsi allarmi.

Kenny Ye Liang, Zhongyi Pei, Huan Zhang + 3 more2026-03-06🤖 cs.AI

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

Il paper introduce la Confidence-Weighted Preference Optimization (CW-PO), un framework che utilizza le valutazioni ad alta confidenza di un modello linguistico debole per re-pesare i dati di addestramento, permettendo di ottenere prestazioni superiori rispetto alle annotazioni umane complete con solo il 20% dei dati etichettati da umani.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

← Precedente Successivo →

cs.AI