cs.LG articoli | Gist.Science

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Il paper presenta LaDiR, un nuovo framework di ragionamento che potenzia i modelli linguistici di grandi dimensioni integrando la generazione autoregressiva con la capacità iterativa di raffinamento dei modelli di diffusione latente, permettendo così una pianificazione e revisione olistica dei processi di ragionamento che migliora accuratezza, diversità e interpretabilità.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Post-hoc Stochastic Concept Bottleneck Models

Il paper introduce i Post-hoc Stochastic Concept Bottleneck Models (PSCBMs), un metodo leggero che potenzia i modelli CBM pre-addestrati con una distribuzione stocastica per catturare le dipendenze tra concetti, migliorando accuratezza e robustezza agli interventi senza necessità di riaddestrare il modello di base.

Wiktor Jan Hoffmann, Sonia Laguna, Moritz Vandenhirtz + 2 more2026-03-04🤖 cs.LG

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Questo lavoro caratterizza l'apprendibilità delle funzioni di perdita 0-1 "perdonanti" nel contesto multiclasse introducendo una nuova dimensione combinatoria, la Generalized Natarajan Dimension, che dimostra essere finita se e solo se la classe di ipotesi è apprendibile, generalizzando così risultati noti su feedback a valori insiemistici e apprendimento con liste.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Questo lavoro presenta Energy Landscape Steering (ELS), un framework senza riaddestramento che utilizza un modello energetico esterno per guidare dinamicamente le attivazioni interne dei modelli linguistici durante l'inferenza, riducendo significativamente i rifiuti eccessivi di richieste innocue mantenendo al contempo elevate prestazioni di sicurezza.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Physically Valid Biomolecular Interaction Modeling with Gauss-Seidel Projection

Il paper presenta un modulo di proiezione differenziabile basato sul metodo di Gauss-Seidel che garantisce la validità fisica delle strutture biomolecolari generate da modelli di diffusione, permettendo di ottenere risultati accurati in soli due passaggi con un'accelerazione di 10 volte rispetto alle basi di riferimento.

Siyuan Chen, Minghao Guo, Caoliwen Wang + 6 more2026-03-04🧬 q-bio

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

Il paper introduce WASI, un metodo di ottimizzazione basato su sottospazi che abilita l'addestramento efficiente di modelli Transformer su dispositivi edge riducendo drasticamente l'uso di memoria e il costo computazionale senza compromettere l'accuratezza.

Le-Trung Nguyen, Enzo Tartaglione, Van-Tam Nguyen2026-03-04🤖 cs.LG

Auditing Information Disclosure During LLM-Scale Gradient Descent Using Gradient Uniqueness

Il paper introduce Gradient Uniqueness (GNQ), una metrica efficiente e basata su principi teorici per valutare i rischi di divulgazione delle informazioni durante l'addestramento di grandi modelli linguistici, superando i limiti computazionali delle verifiche tradizionali tramite un algoritmo ottimizzato chiamato BS-Ghost GNQ.

Sleem Abdelghafar, Maryam Aliakbarpour, Chris Jermaine2026-03-04📊 stat

Quantum Kernel Methods: Convergence Theory, Separation Bounds and Applications to Marketing Analytics

Questo lavoro valuta la fattibilità dei metodi a kernel quantistici per un compito di classificazione dei consumatori nell'era NISQ, presentando una pipeline ibrida Q-SVM che, pur non essendo un benchmark definitivo, dimostra prestazioni promettenti e una maggiore sensibilità rispetto alle controparti classiche, fornendo un punto di partenza concreto per l'integrazione hardware.

Laura Sáez-Ortuño, Santiago Forgas-Coll, Massimiliano Ferrara2026-03-04⚛️ quant-ph

Secure Sparse Matrix Multiplications and their Applications to Privacy-Preserving Machine Learning

Questo lavoro propone algoritmi MPC ottimizzati per la moltiplicazione di matrici sparse, risolvendo i problemi di memoria e riducendo drasticamente i costi di comunicazione per abilitare applicazioni di machine learning privacy-preserving su dati ad alta dimensionalità come i sistemi di raccomandazione e la genomica.

Marc Damie, Florian Hahn, Andreas Peter + 1 more2026-03-04🤖 cs.LG

Policy Transfer for Continuous-Time Reinforcement Learning: A (Rough) Differential Equation Approach

Questo lavoro fornisce la prima dimostrazione teorica del trasferimento delle politiche nell'apprendimento per rinforzo a tempo continuo, sfruttando la teoria dei cammini irregolari e la struttura gaussiana per garantire che una politica ottimale appresa possa inizializzare la ricerca di una politica quasi ottimale per problemi correlati, mantenendo o migliorando i tassi di convergenza.

Xin Guo, Zijiu Lyu2026-03-04🤖 cs.LG

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

Questo lavoro presenta un metodo di compressione per gli alberi decisionali potenziati che, incentivando il riutilizzo di caratteristiche e soglie durante l'addestramento e ottimizzando il layout di memoria, permette di ottenere modelli compatti con un footprint ridotto di 4-16 volte rispetto a LightGBM, rendendo possibile l'esecuzione autonoma di applicazioni IoT su dispositivi con risorse limitate.

Nina Herrmann, Jan Stenkamp, Benjamin Karic + 2 more2026-03-04🤖 cs.LG

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

Il paper presenta STAN, una rete neurale avversaria spaziotemporale che, attraverso meccanismi di attenzione unificati e addestramento robusto, raggiunge prestazioni all'avanguardia nella previsione di crisi epilettiche con alta sensibilità e bassi tassi di falsi allarmi, garantendo al contempo efficienza computazionale per l'implementazione in tempo reale.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Graph Homomorphism Distortion: A Metric to Distinguish Them All and in the Latent Space Bind Them

Il paper introduce una nuova metrica basata sulla distorsione degli omomorfismi di grafi che, integrando sia la struttura che le caratteristiche dei nodi, supera i limiti degli approcci esistenti per valutare l'expressività delle reti neurali su grafi e migliorare le loro capacità predittive.

Martin Carrasco, Olga Zaghen, Kavir Sumaraj + 2 more2026-03-04🤖 cs.LG

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Questo studio introduce il primo approccio sistematico all'oblio continuo nei modelli di diffusione testo-immagine, dimostrando che l'aggiunta di tecniche di regolarizzazione, in particolare un metodo di proiezione del gradiente per preservare i concetti semanticamente affini, è fondamentale per prevenire il collasso dell'utilità del modello quando le richieste di rimozione arrivano in sequenza.

Justin Lee, Zheda Mai, Jinsu Yoo + 3 more2026-03-04🤖 cs.LG

TransactionGPT

Il paper presenta TransactionGPT, un modello fondazionale basato su una nuova architettura 3D-Transformer addestrato su miliardi di transazioni reali che supera i modelli esistenti nel rilevamento di anomalie e nella previsione di transazioni future, offrendo al contempo maggiore efficienza rispetto ai grandi modelli linguistici.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

SURFACEBENCH: A Geometry-Aware Benchmark for Symbolic Surface Discovery

Il paper introduce SURFACEBENCH, il primo benchmark consapevole della geometria per la scoperta simbolica di superfici tridimensionali, progettato per superare i limiti delle valutazioni attuali misurando l'equivalenza strutturale e geometrica attraverso metriche nello spazio degli oggetti e rivelando le attuali lacune nelle prestazioni dei modelli LLM e di altri framework di regressione simbolica.

Sanchit Kabra, Shobhnik Kriplani, Parshin Shojaee + 1 more2026-03-04🤖 cs.LG

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

Il paper presenta FAST, un nuovo framework di selezione del coreset privo di reti neurali che, sfruttando la teoria dei grafi spettrali e una distanza basata sulla funzione caratteristica in frequenza con fasi disaccoppiate e campionamento progressivo, risolve i limiti delle metodologie esistenti garantendo una corrispondenza distribuzionale superiore, maggiore efficienza energetica e prestazioni accademiche significativamente migliori.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

QiMeng-CRUX: Narrowing the Gap Between Natural Language and Verilog via Core Refined Understanding eXpression for Circuit Design

Il paper presenta QiMeng-CRUX, un approccio che introduce uno spazio intermedio strutturato chiamato CRUX e un framework di addestramento a due stadi per colmare il divario tra descrizioni in linguaggio naturale ambigue e la generazione precisa di codice Verilog, ottenendo prestazioni all'avanguardia nei benchmark di progettazione circuitale.

Lei Huang, Rui Zhang, Jiaming Guo + 9 more2026-03-04🤖 cs.LG

WARP: Weight Teleportation for Attack-Resilient Unlearning Protocols

Il paper introduce WARP, un protocollo di difesa basato sulla teleportazione dei pesi che sfrutta le simmetrie delle reti neurali per mitigare i rischi di privacy negli algoritmi di machine unlearning approssimato, riducendo significativamente la vulnerabilità ad attacchi di inferenza e ricostruzione senza compromettere l'accuratezza del modello.

Mohammad M Maheri, Xavier Cadet, Peter Chin + 1 more2026-03-04🤖 cs.AI

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Il paper presenta ALARM, un framework basato su MLLM per il rilevamento di anomalie in ambienti complessi che integra la quantificazione dell'incertezza e tecniche di garanzia della qualità per garantire decisioni affidabili e robuste in diversi domini.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

← Precedente Successivo →