cs.AI articoli | Gist.Science

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Il paper introduce il Determinism-Faithfulness Assurance Harness (DFAH), un framework open-source per valutare l'indipendenza tra determinismo e accuratezza negli agenti LLM finanziari, dimostrando che nessun modello attuale garantisce simultaneamente entrambe le proprietà e fornendo benchmark specifici per soddisfare i requisiti di audit regolamentare.

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Questo lavoro presenta un'architettura CNN a flusso continuo e consapevole del tasso di dati per FPGA che risolve il problema del sottoutilizzo delle unità hardware nelle reti convoluzionali, garantendo un utilizzo vicino al 100% e permettendo l'implementazione di modelli complessi come MobileNet su un singolo dispositivo con elevata efficienza.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Il paper presenta MeanCache, un framework di caching senza addestramento che accelera l'inferenza del Flow Matching sostituendo la velocità istantanea con una velocità media derivata dai prodotti vettore-Jacobiano, ottenendo così un significativo aumento della velocità e una migliore qualità di generazione rispetto alle tecniche esistenti.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Il paper introduce BioAgent Bench, una suite di valutazione e un dataset di benchmark per misurare le prestazioni e la robustezza degli agenti AI nelle attività di bioinformatica, evidenziando che, sebbene i modelli all'avanguardia possano completare pipeline complesse, mostrano vulnerabilità a perturbazioni controllate e che i modelli open-weight sono preferibili in contesti che richiedono rigorose garanzie di privacy.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

Il paper presenta RedSage, un assistente LLM open-source specializzato in cybersecurity addestrato su un vasto corpus di dati specifici e tecniche di augmentation agentiche, che supera le prestazioni dei modelli di base sia in compiti di sicurezza informatica che in ragionamento generale, offrendo al contempo una soluzione localmente deployabile che preserva la privacy dei dati.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

Il documento presenta R2M, un nuovo framework RLHF leggero che supera i limiti dei modelli di ricompensa tradizionali allineandoli in tempo reale alle distribuzioni delle policy in evoluzione tramite l'uso degli stati nascosti, mitigando così il problema dell'ottimizzazione eccessiva della ricompensa.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Questo studio propone l'applicazione dell'Analisi di Fusione Combinatoria (CFA) per prevedere il prezzo del Bitcoin, ottenendo una performance superiore rispetto ai singoli modelli e ad altre tecniche esistenti grazie a una combinazione di punteggi e ranghi che riduce l'errore medio percentuale (MAPE) allo 0,19%.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Questo studio valuta l'impatto dell'analisi del sentiment delle notizie tramite LLM (DeBERTa, RoBERTa e FinBERT) sulla previsione dei movimenti dei prezzi azionari, dimostrando che DeBERTa raggiunge il 75% di accuratezza, un modello ensemble arriva all'80% e le feature di sentiment offrono un lieve vantaggio a vari modelli di classificazione e regressione.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

Il lavoro propone l'Adam-Aware In-Run Data Shapley, un metodo innovativo che supera i limiti delle tecniche basate su SGD per l'attribuzione dei dati negli ottimizzatori Adam, garantendo un'accuratezza quasi perfetta e un'elevata efficienza computazionale senza richiedere il riaddestramento del modello.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Lo studio dimostra che, per il rilevamento dei valori umani a livello di frase, la struttura gerarchica dei valori di Schwartz funge più efficacemente da bias induttivo che da regola di routing rigida, mentre le migliori prestazioni si ottengono attraverso tecniche di calibrazione e ensemble piuttosto che con architetture complesse o modelli LLM compatti.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Il paper presenta T2T, un nuovo framework di reward shaping ispirato ai processi di apprendimento umano che migliora il ragionamento dei modelli linguistici bilanciando l'esplorazione estesa su problemi difficili con l'efficienza sui compiti già padroneggiati, ottenendo risultati superiori rispetto alle tecniche esistenti su benchmark matematici.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Questo studio introduce FSTab, un metodo per identificare e valutare le vulnerabilità ricorrenti nei software generati da LLM tramite un attacco in black-box che prevede le falle nel backend basandosi sulle funzionalità frontend, rivelando così rischi di sicurezza significativi e trasferibili tra diversi domini applicativi.

Tomer Kordonsky, Maayan Yamin, Noam Benzimra, Amit LeVi, Avi Mendelson2026-03-10💻 cs

Semantic Search over 9 Million Mathematical Theorems

Questo lavoro introduce un sistema di ricerca semantica su scala web per 9,2 milioni di teoremi matematici, dimostrando che l'uso di descrizioni in linguaggio naturale e modelli di embedding avanzati migliora significativamente il recupero di risultati specifici rispetto ai metodi tradizionali basati su interi articoli.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin2026-03-10🔢 math

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Il paper propone LMMRec, un framework agnostico che utilizza i Large Language Models per estrarre e allineare motivazioni utente e item da dati testuali e di interazione, migliorando significativamente le prestazioni dei sistemi di raccomandazione multimodali.

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Questo lavoro propone un quadro teorico e pratico per la generazione condizionata tramite modelli di diffusione sotto vincoli rigidi, basato sulla trasformata h di Doob e su algoritmi di apprendimento off-policy che garantiscono il rispetto dei vincoli con probabilità uno senza modificare la rete di score preaddestrata.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Il paper presenta NAAMSE, un framework evolutivo che automatizza la valutazione della sicurezza degli agenti AI tramite mutazione genetica dei prompt e scoring comportamentale asimmetrico, superando i limiti dei metodi statici per identificare vulnerabilità adattive mantenendo al contempo la correttezza funzionale.

Kunal Pai, Parth Shah, Harshil Patel2026-03-10💻 cs

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Questo lavoro propone un quadro di preaddestramento unificato basato sulla diffusione per i modelli fondazionali del cervello, che supera i limiti dei metodi esistenti guidando strategie di mascheramento e lettura consapevoli della struttura per preservare i pattern di connettività semantica e migliorare la robustezza delle rappresentazioni su oltre 25.000 soggetti.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Il paper presenta CoCoA, un nuovo algoritmo di decoding senza addestramento che mitiga le allucinazioni nei modelli linguistici di grandi dimensioni analizzando l'instabilità rappresentativa tra i livelli interni per migliorare l'accuratezza fattuale durante l'inferenza.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Il paper propone SToRM, un innovativo framework di riduzione supervisionata dei token per modelli linguistici multi-modali che, mediante un predittore di importanza, un addestramento supervisionato e un modulo di fusione contestuale, abilita sistemi di guida autonoma end-to-end efficienti riducendo i costi computazionali fino a 30 volte senza compromettere le prestazioni rispetto all'uso di tutti i token.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

Il paper presenta AGPS, un framework che accelera l'apprendimento per rinforzo nei robot sostituendo la supervisione umana con un agente multimodale che funge da modello del mondo semantico, migliorando così l'efficienza del campione e la scalabilità attraverso la guida automatica e la riduzione dello spazio di esplorazione.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

← Precedente Successivo →