cs.LG articoli | Gist.Science

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Questo articolo propone un metodo di ottimizzazione per la selezione del vocabolario nei modelli di bozza dello speculative decoding, che bilancia copertura e latenza riducendo fino al 97% la dimensione del vocabolario e migliorando il throughput fino al 20% su compiti specifici di dominio.

Ofir Ben Shoham2026-03-06🤖 cs.AI

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Questo studio presenta IAENet, un innovativo framework di apprendimento multi-etichetta basato su Transformer che, integrando un dataset specifico (MuAE) e una nuova funzione di perdita, supera le limitazioni degli approcci esistenti nel prevedere tempestivamente eventi avversi intraoperatori multipli, migliorando significativamente la sicurezza del paziente.

Xueyao Wang, Xiuding Cai, Honglin Shang + 2 more2026-03-06🤖 cs.AI

KARL: Knowledge Agents via Reinforcement Learning

Il paper presenta KARL, un sistema di agenti di ricerca aziendale addestrati tramite apprendimento per rinforzo che, grazie a un nuovo benchmark (KARLBench), dati sintetici e un paradigma di post-addestramento iterativo, raggiunge prestazioni all'avanguardia e supera i modelli chiusi più potenti in compiti complessi di ragionamento e ricerca.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Questo lavoro propone un nuovo framework per stimare regole decisionali individualizzate ottimali che integrano vincoli di parità demografica e condizionale, permettendo di mitigare le discriminazioni tramite perturbazioni computazionalmente efficienti delle regole non vincolate, come dimostrato sia teoricamente che empiricamente.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Lo studio dimostra che l'adozione di una topologia sferica vincolata e l'ablazione del routing attentivo adattivo nei Transformer eliminano la fase di memorizzazione nel fenomeno del "grokking" sull'addizione modulare, suggerendo che l'allineamento tra le priorità architetturali e le simmetrie intrinseche del compito è cruciale per accelerare la generalizzazione.

Alper Yıldırım2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Il paper presenta ASR-TRA, un nuovo framework di adattamento test-time basato sull'apprendimento per rinforzo che utilizza ricompense semantiche audio-testo per migliorare la robustezza e l'accuratezza dei sistemi di riconoscimento vocale in condizioni reali difficili, superando i limiti dei metodi basati sulla minimizzazione dell'entropia.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse è il primo sistema che sblocca l'accelerazione tramite Tensor Core di NVIDIA per i modelli con sparsità strutturata $(2N-2):2N$ su GPU commerciali, riconfigurando i pesi in finestre sovrapposte compatibili con il formato 2:4 e integrando la riorganizzazione delle attivazioni nella quantizzazione per ottenere un'accelerazione significativa senza perdita di accuratezza.

Hanyong Shao, Yingbo Hao, Ting Song + 10 more2026-03-06🤖 cs.LG

Recursive Inference Machines for Neural Reasoning

Il paper introduce le Recursive Inference Machines (RIMs), un nuovo framework di ragionamento neurale che integra meccanismi ricorsivi ispirati ai motori di inferenza classici per migliorare le prestazioni dei modelli esistenti su compiti complessi come il ragionamento logico e la classificazione di dati tabellari.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Il paper propone un framework di apprendimento federato a due stadi che, raggruppando le turbine eoliche in base al loro comportamento storico tramite un algoritmo di inizializzazione DRS e addestrando modelli LSTM specifici per cluster, garantisce previsioni di potenza accurate e rispettose della privacy per flotte di turbine distribuite.

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei2026-03-06🤖 cs.LG

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Questo articolo propone un nuovo quadro di audit per i sistemi di riconoscimento vocale che, superando il tradizionale Word Error Rate, utilizza metriche semantiche e un indice di difficoltà del campione per rivelare e mitigare le disparità sistemiche a danno di gruppi marginalizzati.

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das2026-03-06🤖 cs.LG

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Questo articolo presenta il "Whisperer", un innovativo framework di prompting visivo che utilizza un curriculum di apprendimento per imitazione comportamentale di miglioramenti stocastici trovati da un modello di diffusione, permettendo di ridurre significativamente l'errore di riconoscimento dei caratteri su immagini degradate adattando gli input pixel per pixel senza modificare i pesi dei modelli OCR pre-addestrati e congelati.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Bayesian Supervised Causal Clustering

Il documento presenta il Bayesian Supervised Causal Clustering (BSCC), un nuovo metodo che utilizza l'effetto del trattamento come outcome per identificare sottogruppi di pazienti omogenei sia nelle caratteristiche che nella risposta terapeutica, valutandone l'efficacia su dati simulati e reali.

Luwei Wang, Nazir Lone, Sohan Seth2026-03-06🤖 cs.LG

Knowledge Divergence and the Value of Debate for Scalable Oversight

Questo lavoro stabilisce un quadro formale che collega il dibattito e l'RLAIF, dimostrando come il vantaggio del dibattito dipenda dalla divergenza geometrica delle conoscenze tra i modelli, passando da un regime trascurabile a uno essenziale attraverso una transizione di fase e classificando tre regimi di divergenza che determinano l'efficacia della supervisione avversariale.

Robin Young2026-03-06🤖 cs.LG

Latent Policy Steering through One-Step Flow Policies

Il paper propone Latent Policy Steering (LPS), un metodo offline reinforcement learning che utilizza un policy MeanFlow differenziabile a un passo per guidare l'ottimizzazione dello spazio latente tramite gradienti Q nello spazio delle azioni originali, eliminando la necessità di critici latenti proxy e ottenendo prestazioni all'avanguardia con una sintonizzazione minima.

Hokyun Im, Andrey Kolobov, Jianlong Fu + 1 more2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Il paper presenta WavSLM, un modello linguistico per il parlato che, tramite la distillazione di rappresentazioni WavLM in un unico codice e l'ottimizzazione di un obiettivo di previsione autoregressiva, riesce a modellare congiuntamente informazioni semantiche e acustiche in un singolo flusso di token senza supervisione testuale, ottenendo prestazioni competitive con minori parametri e dati di addestramento.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Il paper propone l'uso dei valori di Shapley asimmetrici come metrica onesta per quantificare l'importanza dei geni nei modelli predittivi clinici ad alta dimensionalità, superando i limiti degli approcci tradizionali legati alla collinearità e alla direzione delle dipendenze, e ne illustra l'efficacia attraverso algoritmi efficienti applicati alla previsione della sopravvivenza libera da progressione nel cancro del colon-retto.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Il paper introduce GALACTIC, il primo framework unificato che genera spiegazioni controfattuali sia locali che globali per il clustering di serie temporali, ottimizzando le perturbazioni a livello di istanza e selezionando un riassunto non ridondante delle transizioni tra cluster tramite un obiettivo basato sulla Lunghezza Minima di Descrizione (MDL) con garanzie di approssimazione.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Il paper presenta FairFinGAN, un framework basato su WGAN che genera dati finanziari sintetici privi di pregiudizi rispetto ad attributi protetti, garantendo al contempo l'utilità dei dati per le attività predittive successive.

Tai Le Quy, Dung Nguyen Tuan, Trung Nguyen Thanh + 3 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Questo articolo dimostra che l'ammissibilità nell'inferenza predittiva è irriducibilmente relativa al criterio scelto, delineando quattro geometrie distinte e non annidate (dominanza di Blackwell, validità *anytime*, copertura marginale e admissibilità CAA) che, pur condividendo un modello di ottimizzazione comune, operano su spazi e vincoli geometricamente incompatibili.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

← Precedente Successivo →