cs.AI articoli | Gist.Science

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Lo studio dimostra che il metodo CDD per il rilevamento dell'inquinamento dei dati nei piccoli modelli linguistici è inefficace, poiché dipende dalla memorizzazione verbale e viene costantemente superato da approcci basati sulla probabilità come la perplessità e Min-k% Prob.

Omer Sela (Tel Aviv University)2026-03-10💬 cs.CL

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Questo articolo esplora il potenziale degli agenti intelligenti basati su SPARQL-MCP per facilitare la federazione di query su grafi della conoscenza, proponendo un benchmark esteso e valutando diverse architetture che integrano la scoperta degli endpoint, l'esplorazione degli schemi e la formulazione delle query.

Daniel Dobriy, Frederik Bauer, Amr Azzam + 2 more2026-03-10🤖 cs.AI

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

Il paper presenta una piattaforma aperta e agnostica rispetto allo sport che standardizza l'analisi spaziale e temporale per valutare i movimenti senza palla in Ultimate, basket e calcio, dimostrando la possibilità di trasferire queste valutazioni tra diversi sport di invasione.

Shunsuke Iwashita, Titouan Jeannot, Braden Eberhard + 4 more2026-03-10🤖 cs.AI

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Il documento presenta due nuovi framework di apprendimento per rinforzo, RLOP e QLBS, progettati per ottimizzare la copertura delle opzioni riducendo la probabilità di deficit e il rischio di coda, dimostrando empiricamente come questi agenti autonomi migliorino la stabilità finanziaria rispetto ai modelli parametrici tradizionali.

Minxuan Hu, Ziheng Chen, Jiayu Yi + 1 more2026-03-10💰 q-fin

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Il paper introduce l'Isotonic Layer, un nuovo framework differenziabile che integra l'adattamento lineare a tratti nelle architetture neurali per imporre un bias monotono globale, permettendo una calibrazione granulare e adattiva che mitiga efficacemente i pregiudizi sistematici e migliora l'affidabilità dei sistemi di raccomandazione su larga scala.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

ARC-AGI-2 Technical Report

Il rapporto tecnico presenta un sistema basato su transformer che migliora le prestazioni nell'ARC-AGI combinando l'inferenza neurale con priors strutturati e adattamento online, ottenendo risultati superiori rispetto ai solutori precedenti e avvicinandosi alla generalizzazione di livello umano.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe Carthy2026-03-10💬 cs.CL

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Questo studio dimostra che i giudizi automatizzati basati su LLM falliscono nel valutare in modo affidabile la robustezza avversariale a causa di significativi spostamenti distributivi, portando spesso a risultati vicini al caso casuale e a tassi di successo ingannevoli, e propone pertanto nuovi benchmark per migliorare la valutazione.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan Günnemann2026-03-10💬 cs.CL

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Questo articolo propone un approccio neurodinamico a due scale temporali per risolvere problemi di ottimizzazione con vincoli congiunti di probabilità geometrici e robustezza distribuzionale, dimostrando la convergenza verso l'ottimo globale senza ricorrere ai metodi di risoluzione tradizionali.

Ange Valli (L2S), Siham Tassouli (OPTIM), Abdel Lisser (L2S)2026-03-10🔢 math

Building the ethical AI framework of the future: from philosophy to practice

Questo articolo presenta un'architettura di controllo "ethics-by-design" che integra ragionamenti etici e un sistema a triple cancelli (metrici, di governance e ambientali) in tutte le fasi del ciclo di vita dell'IA, traducendo principi normativi in meccanismi operativi verificabili e integrabili con le pipeline MLOps esistenti.

Jasper Kyle Catapang2026-03-10💻 cs

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Il paper presenta FuzzingRL, un approccio che combina fuzzing visivo e linguistico con il fine-tuning per rinforzo avversario per generare automaticamente varianti di domande capaci di indurre errori e rivelare le vulnerabilità dei Modelli Linguistici Visivi (VLM).

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Questo studio dimostra che la duplicazione dei dati è dipendente dalla scala, rivelando come le copie semantiche diventino sempre più dannose per i modelli di grandi dimensioni a causa di gradienti allineati e collisioni semantiche accelerate, portando a derive nelle leggi di scaling che possono essere quantificate tramite nuove formule predittive.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Questo lavoro propone un benchmark sistematico basato su giochi di interferenza progressivamente complessi e dataset su larga scala per valutare le prestazioni degli algoritmi di apprendimento per rinforzo multi-agente nell'allocazione delle risorse V2X, identificando la robustezza e la generalizzazione delle policy su diverse topologie veicolari come la sfida principale e dimostrando la superiorità dei metodi actor-critic rispetto a quelli basati sul valore.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Il paper presenta la Two-Bridge Map Suite, un nuovo benchmark open-source e accessibile per l'apprendimento per rinforzo che colma il divario tra le sfide computazionali di StarCraft II completo e la semplicità eccessiva dei suoi mini-giochi, isolando le abilità tattiche di navigazione e combattimento per facilitare la ricerca con risorse limitate.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Il documento dimostra che, a differenza dei domini verificabili come la matematica, l'aumento della potenza di calcolo tramite strategie di consenso (come il Pass@k) non migliora l'affidabilità delle risposte dei modelli linguistici in ambiti non verificati, poiché gli errori dei modelli sono fortemente correlati e le aggregazioni tendono a rafforzare le concezioni errate condivise anziché filtrarle.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Il paper presenta OptiRoulette, un nuovo meta-ottimizzatore stocastico che seleziona dinamicamente le regole di aggiornamento durante l'addestramento, garantendo una convergenza più rapida e affidabile e migliorando significativamente l'accuratezza rispetto a AdamW su diverse suite di classificazione di immagini.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Il paper propone il framework Annealed Co-Generation (ACG), che facilita la co-generazione multivariata in ambito scientifico sostituendo la modellazione congiunta ad alta dimensionalità con modelli di diffusione pairwise a bassa dimensionalità, allineati tramite un processo di ricottura a tre stadi per garantire coerenza senza necessità di ulteriore addestramento.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Il paper presenta RACER, un metodo di instradamento per i grandi modelli linguistici che, formulando il problema come $\alpha$ -VOR e utilizzando limiti di concentrazione finiti per la calibrazione, garantisce un controllo rigoroso del rischio di errore distribuendo le query su insiemi di modelli per migliorare l'accuratezza e gestire l'incertezza.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Il paper introduce Evo, un modello linguistico autoregressivo-diffusivo che unifica i due paradigmi in un flusso latente evolutivo, permettendo un bilanciamento adattivo tra generazione e pianificazione per ottenere risultati all'avanguardia su molteplici compiti mantenendo un'efficienza inferenziale elevata.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Il paper propone un nuovo framework basato sull'apprendimento rappresentazionale contestuale e sulla distillazione della conoscenza per migliorare la previsione delle interazioni in zero-shot nelle reti biologiche multiplex, superando i limiti dei metodi esistenti nella modellazione della multiplicità e nell'integrazione di informazioni strutturali e sequenziali.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

← Precedente Successivo →