cs.AI articoli | Gist.Science

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Il paper introduce FinToolBench, il primo benchmark eseguibile al mondo per valutare agenti LLM nell'uso di strumenti finanziari reali, colmando il divario tra le attuali valutazioni statiche e le esigenze dinamiche, ad alto rischio e conformi alle normative del settore finanziario.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

Towards a more efficient bias detection in financial language models

Questo studio propone un metodo di rilevamento dei pregiudizi nei modelli linguistici finanziari più efficiente e meno costoso, dimostrando che l'analisi incrociata tra diversi modelli permette di identificare fino al 73% dei comportamenti distorti utilizzando solo il 20% delle coppie di input necessarie per i metodi tradizionali.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Il paper presenta SAIL, un framework che migliora l'apprendimento per imitazione nei robot attraverso una ricerca iterativa basata su Monte Carlo Tree Search e un modello linguistico-visivo, permettendo di aumentare il tasso di successo fino al 95% sfruttando una maggiore potenza di calcolo al momento del test.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

Il paper propone SCL-GNN, un nuovo framework di Graph Neural Networks che migliora la generalizzazione su dati IID e OOD identificando e mitigando le correlazioni spurie tramite il criterio HSIC e un'ottimizzazione bi-livello.

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Questo studio su larga scala, condotto su 172 miliardi di token con il metodo RIKER, rivela che i modelli linguistici mostrano tassi di allucinazione non trascurabili che aumentano drasticamente con la lunghezza del contesto, mentre la scelta del modello è il fattore dominante rispetto a temperatura, dimensioni o piattaforma hardware.

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Il paper propone AdaCultureSafe, un nuovo framework e dataset che integra conoscenze culturali specifiche per migliorare la sicurezza culturale dei modelli linguistici, rivelando che la sicurezza non deriva automaticamente dalla conoscenza e presentando un metodo per fondere attivamente i due aspetti nella generazione delle risposte.

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

Il paper propone TA-RNN-Medical-Hybrid, un framework di deep learning time-aware e interpretabile che integra codifiche temporali continue e rappresentazioni mediche standardizzate per migliorare l'accuratezza e la trasparenza nella previsione del rischio di mortalità in terapia intensiva.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Questo studio valuta l'efficacia delle revisioni di proposte di sovvenzione basate su LLM attraverso perturbazioni strutturate, rivelando che l'approccio sezione per sezione supera le alternative ma che i sistemi attuali mostrano variabilità e priorità di valutazione disallineate, risultando più adatti al controllo di conformità che alla valutazione olistica.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Questo articolo presenta BladeChain, un sistema basato su blockchain che garantisce la tracciabilità immutabile delle ispezioni delle pale dei motori aeronautici, integrando l'endorsement multi-stakeholder, la pianificazione automatizzata e la provenienza dei modelli di intelligenza artificiale per migliorare l'auditabilità e la sicurezza nella manutenzione aerea.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Lo studio rivela che, a differenza della discesa del gradiente, l'ottimizzazione Sharpness-Aware Minimization (SAM) su reti lineari profonde presenta un bias implicito complesso in cui la normalizzazione del gradiente amplifica inizialmente le caratteristiche minori prima di favorire quelle dominanti, dimostrando che le analisi basate sul limite temporale infinito sono insufficienti per descrivere la dinamica di apprendimento.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Questo articolo propone un quadro unificato per il ragionamento matematico multimodale, analizzando sistematicamente l'estrazione, l'allineamento, il ragionamento e la valutazione dei dati, al fine di superare le attuali limitazioni nella comprensione dei diagrammi e nella verifica dei passaggi intermedi.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Questo lavoro propone l'uso di Reti Neurali Istruite da Grafi (GINN) per simulare in modo efficiente e accurato equazioni differenziali alle derivate parziali parametriche con condizioni al contorno variabili, superando i limiti delle tecniche di riduzione d'ordine tradizionali e offrendo una soluzione scalabile rispetto alle architetture completamente connesse.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Il paper propone un metodo di generazione CT guidato dal testo che, integrando un approccio di recupero per estrarre annotazioni anatomiche da casi clinici simili, migliora la fedeltà anatomica e il controllo spaziale rispetto ai modelli basati solo sul testo.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Questo articolo presenta un nuovo metodo di fine-tuning che guida i Vision Transformers verso correlazioni semantiche basate su concetti, utilizzando maschere generate automaticamente da LLM e VLM per migliorare la robustezza del modello rispetto a spostamenti distributivi.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Questo studio presenta un'ampia analisi comparativa tra umani e intelligenza artificiale nel riconoscimento di azioni egocentriche, rivelando che gli esseri umani dipendono fortemente da cue semantici critici e sparsi, mentre i modelli AI mostrano una degradazione più graduale basata su feature contestuali e una minore sensibilità alle perturbazioni temporali.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

Il paper presenta CORE-Acu, un framework neuro-simbolico che integra tracce di ragionamento strutturate e un grafo di conoscenza per la verifica della sicurezza, garantendo interpretabilità e zero violazioni di sicurezza nei sistemi di supporto decisionale clinico per l'agopuntura.

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Questo studio dimostra come una collaborazione neurosimbolica tra un agente AI basato su LLM, strumenti di calcolo simbolico e guida umana abbia portato alla scoperta di un nuovo limite inferiore rigoroso per lo squilibrio dei quadrati latini nel caso $n \equiv 1 \pmod{3}$ , un risultato formalmente verificato in Lean 4.

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Il paper presenta EndoSERV, un innovativo sistema di navigazione robotica endoluminale basato sulla visione che combina mappatura segmento-struttura e trasferimento reale-virtuale per garantire una localizzazione precisa in ambienti anatomici complessi e deformabili, anche in assenza di etichette di posa reali.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Il paper introduce SPD-RAG, un framework gerarchico multi-agente che migliora la qualità e la scalabilità della risposta a domande complesse su documenti multipli delegando l'elaborazione a agenti dedicati per documento e sintetizzando i risultati tramite un coordinatore, ottenendo prestazioni superiori rispetto ai metodi RAG tradizionali con costi API ridotti.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

Il paper propone DS-DGA-GCN, un nuovo modello di apprendimento su grafi che combina diversità, similarità e meccanismi di attenzione dinamica per rilevare con alta precisione gruppi di recensori falsi in reti dinamiche, superando le prestazioni degli stati dell'arte su dataset reali come Amazon e Xiaohongshu.

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

← Precedente Successivo →