cs.LG articoli | Gist.Science

A Genetic Algorithm for Navigating Synthesizable Molecular Spaces

Il paper presenta SynGA, un algoritmo genetico leggero che opera direttamente sulle rotte di sintesi per generare molecole sintetizzabili, dimostrando elevate prestazioni in compiti di progettazione molecolare e ottimizzazione delle proprietà grazie a operatori personalizzati e all'integrazione con filtri basati su machine learning.

Alston Lo, Connor W. Coley, Wojciech Matusik2026-03-03🧬 q-bio

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

Il paper propone FORCE, un metodo che corregge l'eccessiva dipendenza dalle caratteristiche visive negli attacchi di jailbreaking per appiattire il paesaggio delle perdite e migliorare significativamente la trasferibilità degli attacchi tra diversi modelli linguistici multimodali.

Runqi Lin, Alasdair Paren, Suqin Yuan + 4 more2026-03-03🤖 cs.LG

GraphUniverse: Synthetic Graph Generation for Evaluating Inductive Generalization

Il paper introduce GraphUniverse, un framework open-source per la generazione sintetica di famiglie di grafi con comunità semantiche persistenti, che permette la prima valutazione sistematica della generalizzazione induttiva su larga scala, rivelando che le prestazioni transduttive non sono predittive della capacità di generalizzare e che la robustezza dipende sia dall'architettura che dal regime grafico iniziale.

Louis Van Langendonck, Guillermo Bernárdez, Nina Miolane + 1 more2026-03-03🤖 cs.AI

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Il paper presenta SHINE, un framework senza addestramento che sfrutta i modelli di diffusione pre-addestrati come FLUX per realizzare composizioni di immagini fisicamente plausibili con ombre e riflessi realistici, superando le limitazioni delle tecniche esistenti e introducendo il nuovo benchmark ComplexCompo per valutare scenari complessi.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

Il paper propone un approccio di modellazione dei reward basato su rubriche che, sfruttando esempi off-policy per distinguere le risposte eccellenti da quelle semplicemente buone, mitiga efficacemente l'over-ottimizzazione dei reward nel post-training dei grandi modelli linguistici.

Junkai Zhang, Zihao Wang, Lin Gui + 7 more2026-03-03🤖 cs.AI

DistillKac: Few-Step Image Generation via Damped Wave Equations

Il paper presenta DistillKac, un generatore di immagini ad alta velocità che sfrutta l'equazione delle onde smorzata e la rappresentazione stocastica di Kac per garantire un trasporto di massa probabilistica a velocità finita, permettendo così la generazione di campioni di alta qualità con un numero ridotto di valutazioni della funzione.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

RED-DiffEq: Regularization by denoising diffusion models for solving inverse PDE problems with application to full waveform inversion

Il paper presenta RED-DiffEq, un nuovo framework computazionale che integra modelli di diffusione pre-addestrati come meccanismo di regolarizzazione per risolvere problemi inversi governati da equazioni differenziali, dimostrando elevata accuratezza e robustezza nell'inversione della forma d'onda completa per la geofisica.

Siming Shan, Min Zhu, Youzuo Lin + 1 more2026-03-03🤖 cs.LG

On the $ε$ -Free Inference Complexity of Absorbing Discrete Diffusion

Questo lavoro introduce l'algoritmo AATU, che sfrutta la struttura dei processi di diffusione discreta assorbente per dimostrare una complessità di inferenza $\mathcal{O}(d \ln d)$ indipendente dall'errore $\epsilon$ , superando così i limiti teorici delle basi uniformi e fornendo un fondamento rigoroso per l'efficienza dei modelli di generazione basati su mascheramento.

Xunpeng Huang, Yingyu Lin, Nishant Jain + 4 more2026-03-03🤖 cs.LG

Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Questo lavoro presenta un'analisi completa della potatura delle attivazioni N:M post-allenamento nei modelli linguistici di grandi dimensioni, dimostrando che tale approccio preserva meglio le capacità generative rispetto alla potatura dei pesi e identificando il pattern 8:16 come un compromesso ottimale tra flessibilità e complessità hardware.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva + 7 more2026-03-03🤖 cs.AI

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

Il paper introduce HEAPr, un nuovo algoritmo di pruning che scompone gli esperti nei modelli MoE in "esperti atomici" indivisibili e utilizza informazioni di secondo ordine semplificate nell'output per ottenere una compressione quasi senza perdita con una complessità computazionale ridotta, superando le prestazioni dei metodi di pruning esistenti.

Ke Li, Zheng Yang, Zhongbin Zhou + 3 more2026-03-03🤖 cs.AI

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

Il paper propone la Quantile Advantage Estimation (QAE), un metodo che sostituisce la baseline media con una quantile di gruppo per stabilizzare l'addestramento RLVR nei modelli linguistici, prevenendo collassi ed esplosioni di entropia e migliorando le prestazioni nel ragionamento matematico.

Junkang Wu, Kexin Huang, Jiancan Wu + 3 more2026-03-03🤖 cs.AI

Landing with the Score: Riemannian Optimization through Denoising

Il paper propone un nuovo approccio all'ottimizzazione Riemanniana su varietà implicite, sfruttando la connessione tra le operazioni geometriche e la funzione di punteggio dei modelli di diffusione per sviluppare algoritmi efficienti come DLF e DRGD, con applicazioni promettenti nel controllo dati-driven e nella progettazione generativa.

Andrey Kharitenko, Zebang Shen, Riccardo de Santi + 2 more2026-03-03📊 stat

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Questo studio analizza teoricamente e verifica sperimentalmente come il meccanismo di sovrapposizione nelle catene di pensiero continuo emerga naturalmente durante l'addestramento di trasformatori su problemi di raggiungibilità nei grafi, bilanciando esplorazione ed esplorazione attraverso la dinamica dei logit di corrispondenza degli indici.

Hanlin Zhu, Shibo Hao, Zhiting Hu + 3 more2026-03-03🤖 cs.LG

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Questo lavoro propone un approccio innovativo che consente di condurre molteplici esperimenti di preaddestramento in un'unica esecuzione, riducendo drasticamente i costi computazionali e permettendo di replicare risultati precedenti e esplorare nuove aree di ricerca con impatti minimi sulle prestazioni del modello.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Negative Pre-activations Differentiate Syntax

Lo studio dimostra che le pre-attivazioni negative in una sottopopolazione specifica di neuroni "Wasserstein" svolgono un ruolo attivo e fondamentale nel supporto della sintassi nei moderni modelli linguistici a attivazioni lisce, distinguendosi dalle capacità non grammaticali.

Linghao Kong, Angelina Ning, Micah Adler + 1 more2026-03-03🤖 cs.LG

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Questo lavoro dimostra che l'algoritmo Group-Relative REINFORCE (GRPO) possiede un'interpretazione nativa off-policy, fornendo principi teorici per regolarizzare gli aggiornamenti e modellare la distribuzione dei dati, smentendo miti comuni e offrendo nuove prospettive per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

Il paper propone iMOOE, un metodo di apprendimento invariante guidato dalla fisica che sfrutta un principio di invarianza a due livelli per migliorare le prestazioni e la generalizzazione zero-shot nella previsione della dinamica delle equazioni differenziali parziali (PDE) su scenari fuori distribuzione.

Siyang Li, Yize Chen, Yan Guo + 2 more2026-03-03🤖 cs.AI

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Il paper dimostra che le curve di perdita delle famiglie di LLM addestrate con ricette di scalabilità pratiche collassano su una traiettoria universale quando gli iperparametri sono ottimizzati, fornendo un potente strumento diagnostico per identificare precocemente problemi di addestramento e guidare l'arresto anticipato, come validato dalla creazione della famiglia di modelli *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Il paper propone un framework per modelli fondazionali multimodali che migliora l'architettura Mixture-of-Experts guidando il routing degli esperti attraverso la quantificazione esplicita delle dipendenze temporali tra le modalità, ottenendo così significativi guadagni prestazionali e pattern di routing interpretabili in ambiti come la sanità e il riconoscimento delle attività.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

← Precedente Successivo →

cs.LG