cs.LG articoli | Gist.Science

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Il paper propone VPWEM, una politica visuomotoria non markoviana che integra memoria di lavoro ed episodica tramite un compressore contestuale basato su Transformer, permettendo ai robot di gestire compiti a lungo termine con costi computazionali costanti e superando significativamente gli stati dell'arte su benchmark di manipolazione.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

EVMbench: Evaluating AI Agents on Smart Contract Security

Il paper introduce EVMbench, un benchmark che valuta la capacità degli agenti AI di rilevare, correggere e sfruttare vulnerabilità negli smart contract, dimostrando che i modelli più avanzati sono già in grado di eseguire attacchi end-to-end su istanze reali della blockchain Ethereum.

Justin Wang, Andreas Bigger, Xiaohai Xu, Justin W. Lin, Andy Applebaum, Tejal Patwardhan, Alpin Yukseloglu, Olivia Watkins2026-03-06🔒 cs.CR

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Il paper introduce BandPO, un nuovo metodo di ottimizzazione per l'apprendimento per rinforzo dei modelli linguistici che sostituisce il clipping canonico con un operatore teorico unificato e consapevole delle probabilità, risolvendo il collo di bottiglia esplorativo e prevenendo il collasso dell'entropia senza compromettere la stabilità.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Semantic Communication-Enhanced Split Federated Learning for Vehicular Networks: Architecture, Challenges, and Case Study

Questo articolo presenta il framework SC-USFL, che integra la comunicazione semantica nell'apprendimento federato diviso per le reti veicolari, riducendo l'overhead di comunicazione e migliorando la privacy delle etichette attraverso la trasmissione selettiva di informazioni rilevanti per il compito e l'adattamento dinamico alle condizioni del canale.

Lu Yu, Zheng Chang, Ying-Chang Liang2026-03-06🤖 cs.LG

Person Detection and Tracking from an Overhead Crane LiDAR

Questo articolo presenta un dataset specifico per la rilevazione e il tracciamento di persone tramite LiDAR montato su gru a ponte, valutando l'adattamento di vari rilevatori 3D e algoritmi di tracciamento in un ambiente industriale per colmare il divario tra i dati di guida standard e la visione dall'alto.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

$\nabla$ -Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Il paper presenta $\nabla$ -Reasoner, un nuovo framework che integra l'ottimizzazione differenziabile tramite discesa del gradiente nello spazio latente durante l'inferenza per affinare il processo decisionale dei LLM, ottenendo significativi miglioramenti nel ragionamento matematico e riducendo il numero di chiamate al modello rispetto ai metodi basati su ricerca discreta.

Peihao Wang, Ruisi Cai, Zhen Wang + 4 more2026-03-06🤖 cs.LG

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

Questo studio dimostra che i modelli basati su Transformer con testine di output evidenziali, validati sul dataset HUPA-UCM, offrono il quadro più efficace per la previsione della glicemia e la quantificazione dell'incertezza nel diabete di tipo 1, garantendo sia maggiore accuratezza predittiva sia stime di incertezza meglio calibrate rispetto alle architetture LSTM e GRU.

Hai Siong Tan2026-03-06✓ Author reviewed ⓘ🔬 physics

WaterSIC: information-theoretically (near) optimal linear layer quantization

Il paper presenta WaterSIC, un nuovo algoritmo di quantizzazione lineare che, ispirandosi alla soluzione "waterfilling" dell'informazione teorica, assegna tassi di quantizzazione differenziati alle colonne della matrice dei pesi per raggiungere prestazioni near-ottimali e superare i limiti degli attuali metodi come GPTQ su modelli LLM come Llama e Qwen.

Egor Lifar, Semyon Savkin, Or Ordentlich + 1 more2026-03-06🔢 math

Replaying pre-training data improves fine-tuning

Lo studio dimostra che riproporre i dati generici pre-addestrati durante il fine-tuning migliora le prestazioni sui compiti target, aumentando l'efficienza dei dati e i risultati pratici in domini specifici come la navigazione web e il question-answering in basco.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Il paper propone MOUE, un'architettura Mixture-of-Experts generalizzata che introduce la "larghezza virtuale" riutilizzando esperti universali tra i livelli per superare i limiti di scalabilità, risolvendo le sfide di routing e bilanciamento del carico attraverso una topologia rotazionale sfalsata e meccanismi di correzione specifici, ottenendo così prestazioni superiori rispetto ai modelli MoE tradizionali.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Questo lavoro propone un metodo di fusione di modelli linguistici basato sulla media di Karcher sulla varietà di Fisher-Rao, che supera i limiti delle approssimazioni euclidee preservando la funzionalità e la stabilità anche durante la combinazione di numerosi esperti eterogenei.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

Lightweight and Scalable Transfer Learning Framework for Load Disaggregation

Il paper propone RefQuery, un framework di apprendimento per trasferimento leggero e scalabile per il monitoraggio non intrusivo dei carichi che, utilizzando un modello preaddestrato congelato e adattabile tramite embedding specifici per apparecchio, risolve le sfide di generalizzazione cross-dominio e permette un'implementazione efficiente su dispositivi edge.

L. E. Garcia-Marrero, G. Petrone, E. Monmasson2026-03-06🤖 cs.LG

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Questo studio introduce un framework di apprendimento per rinforzo multi-operatore che integra la teoria della scelta discreta per modellare la competizione endogena nei sistemi AMoD, dimostrando come l'interazione strategica tra operatori porti a dinamiche di prezzo e riposizionamento delle flotte distinte rispetto agli scenari monopolistici.

Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli + 1 more2026-03-06🤖 cs.LG

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Il paper estende il fenomeno dell'Edge of Stability agli ottimizzatori non euclidei definendo una misura generalizzata di sharpness basata su norme arbitrarie, dimostrando sperimentalmente che anche metodi come la discesa del gradiente $\ell_{\infty}$ e Block CD mostrano una progressiva affilatura seguita da oscillazioni attorno alla soglia teorica $2/\eta$ .

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Questo lavoro propone BA-Logic, un nuovo metodo per attacchi backdoor "clean-label" sulle Graph Neural Networks che, superando i limiti delle tecniche esistenti, modifica la logica predittiva interna del modello per garantire un'efficace avvelenamento senza alterare le etichette di addestramento.

Yuxiang Zhang, Bin Ma, Enyan Dai2026-03-06🤖 cs.AI

Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems

Questo articolo introduce l'indice CIES, una metrica matematicamente fondata per quantificare la stabilità delle spiegazioni dei modelli di Intelligenza Artificiale in contesti aziendali, fornendo agli operatori uno strumento per valutare l'affidabilità delle decisioni automatizzate di fronte a perturbazioni dei dati.

Alin-Gabriel Vaduva, Simona-Vasilica Oprea, Adela Bara2026-03-06🤖 cs.AI

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Il paper introduce RepoLaunch, il primo agente basato su LLM in grado di automatizzare completamente la risoluzione delle dipendenze, la compilazione e l'estrazione dei risultati dei test per repository in qualsiasi linguaggio e piattaforma, abilitando così la creazione scalare di dataset per l'addestramento e il benchmarking di agenti di ingegneria del software con un intervento umano limitato alla sola progettazione dei task.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Good-Enough LLM Obfuscation (GELO)

Il paper presenta GELO, un protocollo di obfuscation leggero per l'inferenza di LLM che protegge la privacy delle prompt su acceleratori non fidati mascherando gli stati nascosti con una miscelazione invertibile e casuale per ogni batch, garantendo così l'equivalenza dei risultati finali con un overhead di latenza contenuto e una forte resistenza agli attacchi statistici.

Anatoly Belikov, Ilya Fedotov2026-03-06🔒 cs.CR

MCEL: Margin-Based Cross-Entropy Loss for Error-Tolerant Quantized Neural Networks

Il paper propone MCEL, una nuova funzione di perdita basata sui margini che migliora significativamente la tolleranza agli errori di bit nelle reti neurali quantizzate senza richiedere l'onerosa iniezione di errori durante l'addestramento.

Mikail Yayla, Akash Kumar2026-03-06🤖 cs.LG

← Precedente Successivo →

cs.LG