cs.LG articoli | Gist.Science

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Questo articolo presenta LA-CDM, un agente linguistico basato sull'apprendimento per rinforzo e supervisionato che supporta il processo decisionale clinico dinamico e iterativo attraverso una generazione di ipotesi guidata dall'incertezza, dimostrando miglioramenti nelle prestazioni diagnostiche e nell'efficienza sul dataset reale MIMIC-CDM.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

SecP-Tuning: Efficient Privacy-Preserving Prompt Tuning for Large Language Models via MPC

Il paper propone SecP-Tuning, il primo framework basato su calcolo multi-partito sicuro (MPC) che abilita un efficiente prompt tuning per i Large Language Models eliminando la necessità di calcoli crittografici nella retropropagazione e ottimizzando l'attenzione, garantendo così privacy e prestazioni elevate con riduzioni significative nei tempi di esecuzione e nell'overhead di comunicazione.

Jinglong Luo, Zhuo Zhang, Yehong Zhang + 6 more2026-03-03🤖 cs.LG

Hidden Breakthroughs in Language Model Training

Questo articolo introduce POLCA, un metodo che scompiega le variazioni di perdita nello spazio di addestramento a basso rango per rivelare transizioni di fase nascoste e cluster di dati interpretabili, superando i limiti delle metriche di perdita scalari tradizionali nell'identificare i veri punti di svolta nell'apprendimento dei modelli linguistici.

Sara Kangaslahti, Elan Rosenfeld, Naomi Saphra2026-03-03🤖 cs.LG

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Questo lavoro propone un quadro teorico basato sulla decomposizione del rumore per analizzare quando e perché la strategia "dividi e conquista" con chunking multi-agente è efficace per gestire contesti lunghi negli LLM, dimostrando sperimentalmente che tale approccio può superare modelli più avanzati applicati in un'unica passata.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

RocketStack: Level-aware Deep Recursive Ensemble Learning Architecture

RocketStack è un'architettura di ensemble learning ricorsiva e consapevole dei livelli che, attraverso la fusione delle previsioni, la potatura regolarizzata dei modelli più deboli e la compressione periodica delle caratteristiche, raggiunge prestazioni competitive e una crescita computazionale sublineare su dieci livelli di stacking.

Çağatay Demirel2026-03-03📊 stat

Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba

Il paper presenta Memba, un metodo di fine-tuning efficiente nei parametri specificamente progettato per i modelli Mamba che, integrando neuroni bio-ispirati a membrana leaky integrate con tecniche come LoRA, migliora significativamente le capacità di modellazione temporale rispetto ai metodi esistenti.

Donghyun Lee, Yuhang Li, Ruokai Yin + 2 more2026-03-03🤖 cs.LG

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Il paper introduce LongWriter-Zero, un approccio basato sul reinforcement learning che, partendo da zero senza dati sintetici, permette ai modelli linguistici di generare testi ultra-lunghi di alta qualità, superando le prestazioni dei metodi tradizionali e di modelli molto più grandi.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Il paper propone ConCM, un framework per l'apprendimento incrementale di classe con pochi esempi che risolve i conflitti di conoscenza attraverso una calibrazione dei prototipi ispirata alla memoria associativa e un adattamento dinamico della struttura delle caratteristiche, ottenendo risultati all'avanguardia su diversi benchmark.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

Il paper propone la "Dynamic Weight Grafting", una tecnica di analisi che grafta selettivamente pesi da un modello finetunato su uno pre-addestrato per dimostrare che le conoscenze fattoriali apprese vengono recuperate attraverso due percorsi distinti: un arricchimento del flusso residuo durante l'elaborazione dell'entità e un richiamo finale prima della generazione, localizzando questi meccanismi in specifiche componenti del modello come l'attenzione e le reti feedforward.

Todd Nief, David Reber, Sean Richardson + 1 more2026-03-03🤖 cs.LG

TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence

Il paper presenta TRIDENT, un innovativo framework di apprendimento multimodale che integra SMILES, descrizioni testuali e annotazioni tassonomiche funzionali per migliorare la previsione delle proprietà molecolari attraverso un obiettivo di allineamento globale e locale basato su volumi.

Feng Jiang, Mangal Prakash, Hehuan Ma + 6 more2026-03-03🤖 cs.LG

xLSTMAD: A Powerful xLSTM-based Method for Anomaly Detection

Il paper presenta xLSTMAD, il primo metodo di rilevamento delle anomalie basato su un'architettura xLSTM encoder-decoder che, testato su 17 dataset reali, supera le prestazioni di 23 baselines esistenti grazie alla sua capacità di modellare efficacemente serie temporali multivariate.

Kamil Faber, Marcin Pietroń, Dominik Żurek + 1 more2026-03-03🤖 cs.AI

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

Questo lavoro propone un framework di affinamento iterativo basato sulla distillazione che permette ai modelli di diffusione di ottimizzare funzioni di ricompensa non differenziabili nel design biomolecolare, superando le limitazioni di stabilità ed efficienza dei metodi RL tradizionali attraverso una formulazione off-policy e la minimizzazione della divergenza KL.

Xingyu Su, Xiner Li, Masatoshi Uehara + 7 more2026-03-03🧬 q-bio

Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs

Il paper propone il "Partial Model Collapse" (PMC), un nuovo metodo di machine unlearning che sfrutta deliberatamente il collasso della distribuzione generato dall'addestramento su dati sintetici per rimuovere informazioni sensibili dai LLM senza richiedere l'uso dei dati stessi durante l'addestramento, superando così i limiti delle tecniche esistenti.

Yan Scholten, Sophie Xhonneux, Leo Schwinn + 1 more2026-03-03🤖 cs.AI

SlimCaching: Edge Caching of Mixture-of-Experts for Distributed Inference

Il paper propone SlimCaching, un metodo di caching agli edge che ottimizza la distribuzione degli esperti nei modelli Mixture-of-Experts per ridurre la latenza di inferenza, utilizzando un approccio di decomposizione greedy e programmazione dinamica per gestire i vincoli di archiviazione e le complessità di attivazione multipla.

Qian Chen, Xianhao Chen, Kaibin Huang2026-03-03🤖 cs.LG

Generating Multi-Table Time Series EHR from Latent Space with Minimal Preprocessing

Il paper presenta RawMed, un nuovo framework che genera dati sintetici di cartelle cliniche elettroniche multi-tabella e temporali con pre-elaborazione minima, superando i metodi precedenti nella fedeltà e nell'utilità grazie a rappresentazioni testuali e a un innovativo sistema di valutazione.

Eunbyeol Cho, Jiyoun Kim, Minjae Lee + 2 more2026-03-03🤖 cs.AI

A Projection-Based ARIMA Framework for Nonlinear Dynamics in Macroeconomic and Financial Time Series: Closed-Form Estimation and Rolling-Window Inference

Questo articolo introduce il framework Galerkin-ARIMA, un'estensione proiettiva dei modelli ARIMA classici che utilizza espansioni di basi di Galerkin per catturare dinamiche non lineari, offrendo una stima a forma chiusa, risultati asintotici rigorosi e prestazioni di previsione superiori per applicazioni macroeconomiche e finanziarie.

Haojie Liu, Zihan Lin2026-03-03📈 econ

Physics-Based Machine Learning Closures and Wall Models for Hypersonic Transition-Continuum Boundary Layer Predictions

Questo lavoro presenta un framework di apprendimento automatico vincolato dalla fisica che, integrando modelli di trasporto basati su deep learning e un modello di parete fondato su distribuzioni di velocità di particelle skew-Gaussiane, migliora significativamente l'accuratezza delle previsioni degli strati limite ipersonici nel regime di transizione-continuo, dove i modelli convenzionali falliscono.

Ashish S. Nair, Narendra Singh, Marco Panesi + 2 more2026-03-03🔬 physics

Separating Ansatz Discovery from Deployment on Larger Problems: Reinforcement Learning for Modular Circuit Design

Questo lavoro propone un approccio che separa la scoperta di un'architettura modulare per circuiti quantistici su piccoli sistemi, utilizzando l'apprendimento per rinforzo, dalla sua successiva applicazione a problemi più complessi, dimostrando che i blocchi circuitali appresi su istanze ridotte possono essere efficacemente riutilizzati per scalare a sistemi con un maggior numero di qubit senza richiedere un addestramento diretto su scale computazionalmente proibitive.

Gloria Turati, Simone FoderÃ, Riccardo Nembrini + 2 more2026-03-03⚛️ quant-ph

Minor Embedding for Quantum Annealing with Reinforcement Learning

Questo articolo propone un approccio basato sull'Apprendimento per Rinforzo, utilizzando l'ottimizzazione della politica prossimale, per risolvere il problema computazionalmente oneroso dell'embedding minore nell'annealing quantistico, dimostrando la capacità del metodo di generare embedding validi ed efficienti su diverse topologie hardware e di scalare bene con la dimensione del problema.

Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi2026-03-03⚛️ quant-ph

CASCADE: LLM-Powered JavaScript Deobfuscator at Google

Il paper presenta CASCADE, un deobfuscator JavaScript ibrido sviluppato da Google che combina le capacità di Gemini per identificare le funzioni prelude critiche con le trasformazioni deterministiche di un'intermedia rappresentazione (JSIR), superando i limiti delle tecniche esistenti e migliorando l'efficienza dell'analisi del codice in produzione.

Shan Jiang, Pranoy Kovuri, David Tao + 1 more2026-03-03🤖 cs.AI

← Precedente Successivo →