cs.LG articoli | Gist.Science

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Questo studio analizza meccanicisticamente le vulnerabilità ai jailbreak nei modelli linguistici di grandi dimensioni, rivelando che il successo degli attacchi basati sul completamento del testo deriva dalla competizione interna tra la spinta naturale del modello a continuare il discorso e le difese di sicurezza apprese durante l'addestramento, un fenomeno identificato attraverso l'analisi delle testine di attenzione.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Fibration Policy Optimization

Il documento presenta Fibration Policy Optimization (FiberPO), un quadro teorico unificato che combina un nuovo obiettivo di censura delle policy (APC-Obj) e una struttura algebrica a fascio (FBG) per ottimizzare i modelli linguistici su più scale gerarchiche, garantendo stabilità e maggiore efficienza nei token attraverso un controllo dei trust region composito.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

Optimising antibiotic switching via forecasting of patient physiology

Questo studio propone un sistema di supporto decisionale basato su processi neurali che, prevedendo l'evoluzione dei segni vitali dei pazienti e confrontandola con le linee guida cliniche invece di imparare dalle decisioni passate, ottimizza il passaggio dagli antibiotici endovenosi a quelli orali, migliorando significativamente l'identificazione dei pazienti idonei rispetto ai metodi casuali.

Magnus Ross, Nel Swanepoel, Akish Luintel, Emma McGuire, Ingemar J. Cox, Steve Harris, Vasileios Lampos2026-03-10🤖 cs.LG

FedPrism: Adaptive Personalized Federated Learning under Non-IID Data

FedPrism è un framework di apprendimento federato che affronta l'eterogeneità statistica dei dati non-IID decomponendo i modelli dei client in componenti globali, di gruppo e private, e utilizzando un design a doppio flusso per bilanciare dinamicamente la generalizzazione con la personalizzazione adattiva.

Prakash Kumbhakar, Shrey Srivastava, Haroon R Lone2026-03-10🤖 cs.LG

FlowTouch: View-Invariant Visuo-Tactile Prediction

Il paper presenta FlowTouch, un modello innovativo per la previsione visuo-tattile indipendente dalla vista che utilizza mesh 3D locali e Flow Matching per colmare il divario tra simulazione e realtà, permettendo di prevedere le informazioni tattili da immagini visive e migliorando la stabilità della presa.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Beyond ReinMax: Low-Variance Gradient Estimators for Discrete Latent Variables

Questo lavoro introduce gli stimatori ReinMax-Rao e ReinMax-CV, che riducono la varianza dello stimatore ReinMax tramite tecniche di Rao-Blackwellizzazione e variabili di controllo, migliorando così l'addestramento di autoencoder variazionali con spazi latenti discreti.

Daniel Wang, Thang D. Bui2026-03-10🤖 cs.LG

Airborne Magnetic Anomaly Navigation with Neural-Network-Augmented Online Calibration

Il documento presenta un sistema di navigazione magnetica aerea adattivo che, integrando un filtro di Kalman esteso con un modello fisico e una rete neurale per l'apprendimento residuo, consente una calibrazione in tempo reale del disturbo magnetico dell'aeromobile senza necessità di voli di taratura preliminari, garantendo una precisione comparabile ai metodi offline.

Antonia Hager, Sven Nebendahl, Alexej Klushyn, Jasper Krauser, Torleiv H. Bryne, Tor Arne Johansen2026-03-10🤖 cs.LG

Towards a more efficient bias detection in financial language models

Questo studio propone un metodo di rilevamento dei pregiudizi nei modelli linguistici finanziari più efficiente e meno costoso, dimostrando che l'analisi incrociata tra diversi modelli permette di identificare fino al 73% dei comportamenti distorti utilizzando solo il 20% delle coppie di input necessarie per i metodi tradizionali.

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

Il paper propone SCL-GNN, un nuovo framework di Graph Neural Networks che migliora la generalizzazione su dati IID e OOD identificando e mitigando le correlazioni spurie tramite il criterio HSIC e un'ottimizzazione bi-livello.

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

Il paper propone TA-RNN-Medical-Hybrid, un framework di deep learning time-aware e interpretabile che integra codifiche temporali continue e rappresentazioni mediche standardizzate per migliorare l'accuratezza e la trasparenza nella previsione del rischio di mortalità in terapia intensiva.

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

PolyFormer: learning efficient reformulations for scalable optimization under complex physical constraints

Il paper introduce PolyFormer, un modello di apprendimento automatico informato dalla fisica che semplifica problemi di ottimizzazione complessi vincolati da leggi fisiche trasformandoli in riformulazioni poliedriche efficienti, ottenendo così accelerazioni computazionali fino a 6.400 volte e riduzioni di memoria fino al 99,87% mantenendo una qualità della soluzione competitiva.

Yilin Wen, Yi Guo, Bo Zhao, Wei Qi, Zechun Hu, Colin Jones, Jian Sun2026-03-10🤖 cs.LG

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Questo lavoro risolve le limitazioni teoriche precedenti sull'algoritmo GP-PSRL per il controllo continuo, dimostrando che, anche in spazi di stato illimitati, è possibile ottenere un limite di rimpianto bayesiano sublineare dell'ordine $\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T})$ attraverso l'uso di disuguaglianze probabilistiche avanzate e il metodo di chaining.

Hamish Flynn, Joe Watson, Ingmar Posner, Jan Peters2026-03-10🤖 cs.LG

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Lo studio rivela che, a differenza della discesa del gradiente, l'ottimizzazione Sharpness-Aware Minimization (SAM) su reti lineari profonde presenta un bias implicito complesso in cui la normalizzazione del gradiente amplifica inizialmente le caratteristiche minori prima di favorire quelle dominanti, dimostrando che le analisi basate sul limite temporale infinito sono insufficienti per descrivere la dinamica di apprendimento.

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Questo lavoro propone l'uso di Reti Neurali Istruite da Grafi (GINN) per simulare in modo efficiente e accurato equazioni differenziali alle derivate parziali parametriche con condizioni al contorno variabili, superando i limiti delle tecniche di riduzione d'ordine tradizionali e offrendo una soluzione scalabile rispetto alle architetture completamente connesse.

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Questo articolo presenta un nuovo metodo di fine-tuning che guida i Vision Transformers verso correlazioni semantiche basate su concetti, utilizzando maschere generate automaticamente da LLM e VLM per migliorare la robustezza del modello rispetto a spostamenti distributivi.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Sign Identifiability of Causal Effects in Stationary Stochastic Dynamical Systems

Questo studio introduce il concetto di identificabilità del segno degli effetti causali in sistemi dinamici stocastici lineari stazionari a tempo continuo, dimostrando come, rilassando l'assunzione di una matrice di diffusione nota, sia possibile determinare i segni dei coefficienti di deriva basandosi sulla struttura causale e sulle matrici di covarianza osservate.

Gijs van Seeventer, Saber Salehkaleybar2026-03-10🤖 cs.LG

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Questo lavoro introduce un framework generale per valutare la qualità delle mappe di calore nel Multiple Instance Learning per l'istopatologia, dimostrando che metodi come LRP e Integrated Gradients superano le mappe basate sull'attenzione e abilitano validazioni biologiche affidabili e nuove intuizioni scientifiche.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

Questo studio dimostra che l'integrazione di caratteristiche derivate dall'operatore di Koopman (tramite EDMD con dizionari a funzioni radiali ottimizzati) e trasformate wavelet in architetture Transformer migliora significativamente la classificazione multiclasse dei segnali ECG, superando sia le basi wavelet pure che i sistemi ibridi semplici.

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Il paper propone di sostituire la proiezione di output densa nell'attenzione multi-testa con una trasformata di Hadamard di Walsh fissa e priva di parametri seguita da un ridimensionamento affine leggero, ottenendo una significativa riduzione dei parametri e dei costi di inferenza mantenendo o migliorando le prestazioni sui benchmark.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Towards plausibility in time series counterfactual explanations

Il paper presenta un nuovo metodo basato su ottimizzazione del gradiente che genera spiegazioni controfattuali plausibili per la classificazione di serie temporali, integrando l'allineamento soft-DTW con i vicini più prossimi per garantire una struttura temporale realistica e superare i limiti delle approcci esistenti.

Marcin Kostrzewa, Krzysztof Galus, Maciej Zi\k{e}ba2026-03-10🤖 cs.LG

← Precedente Successivo →