cs.LG articoli | Gist.Science

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs

Il paper propone il "Partial Model Collapse" (PMC), un nuovo metodo di machine unlearning che sfrutta deliberatamente il collasso della distribuzione generato dall'addestramento su dati sintetici per rimuovere informazioni sensibili dai LLM senza richiedere l'uso dei dati stessi durante l'addestramento, superando così i limiti delle tecniche esistenti.

Yan Scholten, Sophie Xhonneux, Leo Schwinn + 1 more2026-03-03🤖 cs.AI

SlimCaching: Edge Caching of Mixture-of-Experts for Distributed Inference

Il paper propone SlimCaching, un metodo di caching agli edge che ottimizza la distribuzione degli esperti nei modelli Mixture-of-Experts per ridurre la latenza di inferenza, utilizzando un approccio di decomposizione greedy e programmazione dinamica per gestire i vincoli di archiviazione e le complessità di attivazione multipla.

Qian Chen, Xianhao Chen, Kaibin Huang2026-03-03🤖 cs.LG

Generating Multi-Table Time Series EHR from Latent Space with Minimal Preprocessing

Il paper presenta RawMed, un nuovo framework che genera dati sintetici di cartelle cliniche elettroniche multi-tabella e temporali con pre-elaborazione minima, superando i metodi precedenti nella fedeltà e nell'utilità grazie a rappresentazioni testuali e a un innovativo sistema di valutazione.

Eunbyeol Cho, Jiyoun Kim, Minjae Lee + 2 more2026-03-03🤖 cs.AI

A Projection-Based ARIMA Framework for Nonlinear Dynamics in Macroeconomic and Financial Time Series: Closed-Form Estimation and Rolling-Window Inference

Questo articolo introduce il framework Galerkin-ARIMA, un'estensione proiettiva dei modelli ARIMA classici che utilizza espansioni di basi di Galerkin per catturare dinamiche non lineari, offrendo una stima a forma chiusa, risultati asintotici rigorosi e prestazioni di previsione superiori per applicazioni macroeconomiche e finanziarie.

Haojie Liu, Zihan Lin2026-03-03📈 econ

Physics-Based Machine Learning Closures and Wall Models for Hypersonic Transition-Continuum Boundary Layer Predictions

Questo lavoro presenta un framework di apprendimento automatico vincolato dalla fisica che, integrando modelli di trasporto basati su deep learning e un modello di parete fondato su distribuzioni di velocità di particelle skew-Gaussiane, migliora significativamente l'accuratezza delle previsioni degli strati limite ipersonici nel regime di transizione-continuo, dove i modelli convenzionali falliscono.

Ashish S. Nair, Narendra Singh, Marco Panesi + 2 more2026-03-03🔬 physics

Separating Ansatz Discovery from Deployment on Larger Problems: Reinforcement Learning for Modular Circuit Design

Questo lavoro propone un approccio che separa la scoperta di un'architettura modulare per circuiti quantistici su piccoli sistemi, utilizzando l'apprendimento per rinforzo, dalla sua successiva applicazione a problemi più complessi, dimostrando che i blocchi circuitali appresi su istanze ridotte possono essere efficacemente riutilizzati per scalare a sistemi con un maggior numero di qubit senza richiedere un addestramento diretto su scale computazionalmente proibitive.

Gloria Turati, Simone FoderÃ, Riccardo Nembrini + 2 more2026-03-03⚛️ quant-ph

Minor Embedding for Quantum Annealing with Reinforcement Learning

Questo articolo propone un approccio basato sull'Apprendimento per Rinforzo, utilizzando l'ottimizzazione della politica prossimale, per risolvere il problema computazionalmente oneroso dell'embedding minore nell'annealing quantistico, dimostrando la capacità del metodo di generare embedding validi ed efficienti su diverse topologie hardware e di scalare bene con la dimensione del problema.

Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi2026-03-03⚛️ quant-ph

CASCADE: LLM-Powered JavaScript Deobfuscator at Google

Il paper presenta CASCADE, un deobfuscator JavaScript ibrido sviluppato da Google che combina le capacità di Gemini per identificare le funzioni prelude critiche con le trasformazioni deterministiche di un'intermedia rappresentazione (JSIR), superando i limiti delle tecniche esistenti e migliorando l'efficienza dell'analisi del codice in produzione.

Shan Jiang, Pranoy Kovuri, David Tao + 1 more2026-03-03🤖 cs.AI

Domain Generalization and Adaptation in Intensive Care with Anchor Regression

Questo studio presenta un'analisi su larga scala che applica la regressione con ancoraggio e introduce il "anchor boosting" per migliorare la generalizzazione dei modelli predittivi nei dati delle terapie intensive provenienti da diverse strutture, proponendo inoltre un quadro concettuale per determinare quando è più vantaggioso utilizzare dati esterni o adattarsi ai dati del dominio target.

Malte Londschien, Manuel Burger, Gunnar Rätsch + 1 more2026-03-03📊 stat

Regime-Aware Conditional Neural Processes with Multi-Criteria Decision Support for Operational Electricity Price Forecasting

Questo lavoro propone un modello ibrido che combina la rilevazione bayesiana dei regimi con i processi neurali condizionali per prevedere i prezzi dell'energia elettrica in Germania, dimostrando attraverso un'analisi multi-criterio TOPSIS che la soluzione proposta offre un equilibrio operativo superiore rispetto ai modelli tradizionali per il periodo 2021-2023.

Abhinav Das, Stephan Schlüter2026-03-03📊 stat

DisTaC: Conditioning Task Vectors via Distillation for Robust Model Merging

Il paper presenta DisTaC, un metodo innovativo che utilizza la distillazione per pre-condizionare i vettori di task, correggendo le disparità nelle norme e la bassa confidenza dei modelli sorgente per migliorare la robustezza e le prestazioni del merging di modelli in scenari realistici.

Kotaro Yoshida, Yuji Naraki, Takafumi Horie + 2 more2026-03-03🤖 cs.LG

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Il paper propone HGTS-Former, una nuova architettura Transformer basata su ipergrafi gerarchici che migliora l'analisi delle serie temporali multivariate modellando le complesse interazioni tra variabili, ottenendo risultati all'avanguardia anche su un nuovo dataset su larga scala per il riconoscimento dei modi localizzati ai bordi nella fusione nucleare.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Sample-Efficient Distributionally Robust Multi-Agent Reinforcement Learning via Online Interaction

Questo articolo presenta MORNAVI, il primo algoritmo con garanzie teoriche per l'apprendimento online in giochi di Markov distribuzionalmente robusti, permettendo a sistemi multi-agente di imparare direttamente dalle interazioni ambientali senza dipendere da simulatori o dataset offline.

Zain Ulabedeen Farhat, Debamita Ghosh, George K. Atia + 1 more2026-03-03🤖 cs.LG

Next Generation Equation-Free Multiscale Modelling of Crowd Dynamics via Machine Learning

Questo lavoro propone un approccio multiscale basato sull'apprendimento automatico che, attraverso un processo di riduzione della dimensionalità e ricostruzione, apprende l'operatore di evoluzione delle dinamiche di folla in uno spazio latente per simulare con precisione e velocità il comportamento collettivo partendo da dati microscopici individuali.

Hector Vargas Alvarez, Dimitrios G. Patsatzis, Lucia Russo + 2 more2026-03-03🤖 cs.LG

Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks

Questo lavoro presenta il primo studio sistematico sugli attacchi di inversione del modello per i modelli visione-linguaggio, introducendo la tecnica SMI-AW che sfrutta un pesamento adattivo dei token per ricostruire con successo dati di addestramento privati, evidenziando così gravi rischi per la privacy nei modelli VLM attualmente disponibili.

Ngoc-Bao Nguyen, Sy-Tuyen Ho, Koh Jun Hao + 1 more2026-03-03🤖 cs.LG

Agnostics: Learning to Code in Any Programming Language via Reinforcement with a Universal Learning Environment

Il paper presenta Agnostics, una pipeline di post-addestramento basata sul reinforcement learning che, valutando il codice esclusivamente tramite il suo comportamento osservabile esterno, permette di insegnare efficacemente a modelli linguistici di diverse dimensioni a programmare in lingue a risorse limitate senza richiedere infrastrutture specifiche per ogni linguaggio.

Aleksander Boruch-Gruszecki, Yangtian Zi, Zixuan Wu + 4 more2026-03-03🤖 cs.LG

Semantic-Enhanced Time-Series Forecasting via Large Language Models

Il paper propone SE-LLM, un nuovo approccio che potenzia i Large Language Models per la previsione delle serie temporali integrando le caratteristiche intrinseche dei dati nel loro spazio semantico e aggiungendo un modulo plugin per modellare sia le dipendenze a lungo termine che le anomalie a breve termine, ottenendo prestazioni superiori con un ridotto consumo computazionale.

Hao Liu, Xiaoxing Zhang, Chun Yang + 1 more2026-03-03🤖 cs.LG

Causal Structure Learning in Hawkes Processes with Complex Latent Confounder Networks

Il paper propone un algoritmo iterativo a due fasi che, sfruttando la rappresentazione discreta delle sequenze di eventi continui, identifica le strutture causali nei processi di Hawkes multivariati anche in presenza di sottoprocessi latenti non osservati.

Songyao Jin, Biwei Huang2026-03-03📊 stat

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Il paper propone un nuovo framework chiamato Next Visual Granularity (NVG) che genera immagini decomponendole in una sequenza strutturata di granularità visiva crescente, dai layout globali ai dettagli fini, ottenendo risultati superiori rispetto alla serie VAR sul dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

← Precedente Successivo →