FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Il paper introduce FinToolBench, il primo benchmark eseguibile al mondo per valutare agenti LLM nell'uso di strumenti finanziari reali, colmando il divario tra le attuali valutazioni statiche e le esigenze dinamiche, ad alto rischio e conformi alle normative del settore finanziario.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Questo studio su larga scala, condotto su 172 miliardi di token con il metodo RIKER, rivela che i modelli linguistici mostrano tassi di allucinazione non trascurabili che aumentano drasticamente con la lunghezza del contesto, mentre la scelta del modello è il fattore dominante rispetto a temperatura, dimensioni o piattaforma hardware.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Il paper propone AdaCultureSafe, un nuovo framework e dataset che integra conoscenze culturali specifiche per migliorare la sicurezza culturale dei modelli linguistici, rivelando che la sicurezza non deriva automaticamente dalla conoscenza e presentando un metodo per fondere attivamente i due aspetti nella generazione delle risposte.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Questo studio valuta l'efficacia delle revisioni di proposte di sovvenzione basate su LLM attraverso perturbazioni strutturate, rivelando che l'approccio sezione per sezione supera le alternative ma che i sistemi attuali mostrano variabilità e priorità di valutazione disallineate, risultando più adatti al controllo di conformità che alla valutazione olistica.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Questo articolo presenta BladeChain, un sistema basato su blockchain che garantisce la tracciabilità immutabile delle ispezioni delle pale dei motori aeronautici, integrando l'endorsement multi-stakeholder, la pianificazione automatizzata e la provenienza dei modelli di intelligenza artificiale per migliorare l'auditabilità e la sicurezza nella manutenzione aerea.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Lo studio rivela che, a differenza della discesa del gradiente, l'ottimizzazione Sharpness-Aware Minimization (SAM) su reti lineari profonde presenta un bias implicito complesso in cui la normalizzazione del gradiente amplifica inizialmente le caratteristiche minori prima di favorire quelle dominanti, dimostrando che le analisi basate sul limite temporale infinito sono insufficienti per descrivere la dinamica di apprendimento.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Questo articolo propone un quadro unificato per il ragionamento matematico multimodale, analizzando sistematicamente l'estrazione, l'allineamento, il ragionamento e la valutazione dei dati, al fine di superare le attuali limitazioni nella comprensione dei diagrammi e nella verifica dei passaggi intermedi.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Questo lavoro propone l'uso di Reti Neurali Istruite da Grafi (GINN) per simulare in modo efficiente e accurato equazioni differenziali alle derivate parziali parametriche con condizioni al contorno variabili, superando i limiti delle tecniche di riduzione d'ordine tradizionali e offrendo una soluzione scalabile rispetto alle architetture completamente connesse.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Questo studio presenta un'ampia analisi comparativa tra umani e intelligenza artificiale nel riconoscimento di azioni egocentriche, rivelando che gli esseri umani dipendono fortemente da cue semantici critici e sparsi, mentre i modelli AI mostrano una degradazione più graduale basata su feature contestuali e una minore sensibilità alle perturbazioni temporali.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

Il paper presenta CORE-Acu, un framework neuro-simbolico che integra tracce di ragionamento strutturate e un grafo di conoscenza per la verifica della sicurezza, garantendo interpretabilità e zero violazioni di sicurezza nei sistemi di supporto decisionale clinico per l'agopuntura.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Questo studio dimostra come una collaborazione neurosimbolica tra un agente AI basato su LLM, strumenti di calcolo simbolico e guida umana abbia portato alla scoperta di un nuovo limite inferiore rigoroso per lo squilibrio dei quadrati latini nel caso n1(mod3)n \equiv 1 \pmod{3}, un risultato formalmente verificato in Lean 4.

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Il paper introduce SPD-RAG, un framework gerarchico multi-agente che migliora la qualità e la scalabilità della risposta a domande complesse su documenti multipli delegando l'elaborazione a agenti dedicati per documento e sintetizzando i risultati tramite un coordinatore, ottenendo prestazioni superiori rispetto ai metodi RAG tradizionali con costi API ridotti.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL