cs.LG articoli | Gist.Science

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Questo studio rivela una nuova modalità di fallimento nei modelli linguistici visivi multimodali, dimostrando che l'ottimizzazione di una funzione di perdita volta a massimizzare l'instabilità numerica genera immagini che degradano significativamente le prestazioni del modello con modifiche minime, un fenomeno distinto dalle tradizionali perturbazioni avversarie.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Questo articolo propone il paradigma di apprendimento HARR (Heterogeneous Attribute Reconstruction and Representation), un metodo privo di parametri e garantito nella convergenza che trasforma attributi eterogenei in uno stato omogeneo proiettandoli in spazi apprendibili unificati per migliorare l'accuratezza e l'efficienza del clustering su dati misti.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Il paper presenta VSPrefill, un meccanismo di attenzione sparsa basato su pattern verticali e diagonali che, tramite un indice leggero e strategie adattive, riduce la complessità del prefilling a scala lineare ottenendo un'accelerazione di 4,95 volte su contesti lunghi fino a 128k senza compromettere significativamente l'accuratezza.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Il documento presenta MAD-SmaAt-GNet, una rete neurale multimodale addestrata per migliorare le previsioni di precipitazione a breve termine integrando l'architettura SmaAt-UNet con un encoder multimodale e un componente di avvezione basato sulla fisica, ottenendo una riduzione significativa dell'errore quadratico medio rispetto ai modelli di base.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Questo studio rivela che i modelli linguistici di grandi dimensioni elaborano le dimostrazioni conflittuali nell'apprendimento contestuale attraverso una struttura computazionale a due fasi, identificando specifiche "teste" di attenzione vulnerabili e suscettibili che, se disattivate miratamente, migliorano le prestazioni del modello di oltre il 10%.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Il paper presenta Act-Observe-Rewrite (AOR), un framework in cui un agente multimodale basato su LLM migliora autonomamente le politiche di manipolazione robotica riscrivendo il codice di controllo tra un'esecuzione e l'altra, basandosi sulle osservazioni visive e sui risultati degli episodi senza necessità di gradienti, dimostrazioni o ingegneria delle ricompense.

Vaishak Kumar2026-03-06💻 cs

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Questo studio presenta un modello LSTM interpretabile per la previsione delle traiettorie delle navi nelle vie navigabili interne, che, pur ottenendo un'accuratezza comparabile agli studi esistenti, rivela attraverso l'analisi dei pesi di attenzione che i miglioramenti predittivi non sono interamente guidati da relazioni causali con le navi vicine, sottolineando così l'importanza della spiegabilità dei modelli.

Tom Legel, Dirk Söffker, Roland Schätzle + 1 more2026-03-06💻 cs

Dictionary Based Pattern Entropy for Causal Direction Discovery

Il paper propone il framework DPE, che combina la Teoria dell'Informazione Algoritmica e quella di Shannon per determinare la direzione causale in sequenze simboliche identificando pattern deterministici che riducono l'incertezza, dimostrando prestazioni robuste su dati sintetici e reali.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

Il paper presenta un sistema di riconoscimento delle attività basato su una rete neurale convoluzionale circolare a dilatazione (CDCNN) che elabora dati multi-modali da plantari intelligenti, ottenendo un'accuratezza del 86,42% nell'identificazione di quattro classi di movimento e dimostrando la fattibilità di un'implementazione in tempo reale su dispositivi embedded.

Yanhua Zhao2026-03-06💻 cs

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Questo lavoro propone il framework MTDP, che utilizza la distillazione multi-teacher da modelli fondazionali visivi e temporali per pre-addestrare modelli EEG in modo più efficiente, ottenendo prestazioni superiori con solo il 25% dei dati di pre-addestramento necessari rispetto ai metodi auto-supervisionati tradizionali.

Chenqi Li, Yu Liu, Shuo Zhang + 2 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Questo studio analizza i tempi di arresto totali della congettura di Collatz attraverso una prospettiva di apprendimento automatico probabilistico, confrontando un modello di regressione gerarchica bayesiana con un'approssimazione generativa meccanica e dimostrando che la struttura modulare a basso ordine è un fattore chiave nell'eterogeneità osservata.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2

Questo studio introduce Ab-Affinity, un nuovo modello linguistico su larga scala in grado di prevedere con precisione l'affinità di legame degli anticorpi contro il peptide bersaglio, come la proteina spike del SARS-CoV-2, sfruttando i recenti progressi nell'intelligenza artificiale e la disponibilità di dati sperimentali.

Faisal Bin Ashraf, Animesh Ray, Stefano Lonardi2026-03-06💻 cs

Augmenting representations with scientific papers

Questo lavoro introduce un framework di apprendimento contrastivo che allinea gli spettri a raggi X con la conoscenza estratta dalla letteratura scientifica, creando rappresentazioni multimodali condivise che migliorano la stima delle variabili fisiche e facilitano l'identificazione di sorgenti astrofisiche rare o poco comprese.

Nicolò Oreste Pinciroli Vago, Rocco Di Tella, Carolina Cuesta-Lázaro + 3 more2026-03-06✓ Author reviewed ⓘ🔭 astro-ph

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

Il progetto introduce il "Projected Hessian Learning" (PHL), un metodo scalabile che addestra potenziali interatomici basati sull'apprendimento automatico utilizzando prodotti vettore-Hessiano invece della matrice Hessiana completa, ottenendo così una supervisione della curvatura ad alta precisione con costi computazionali e di memoria ridotti rispetto ai metodi tradizionali.

Austin Rodriguez, Justin S. Smith, Sakib Matin + 3 more2026-03-06🔬 physics

The Volterra signature

Il paper propone la "Volterra signature" come una rappresentazione esplicita e interpretabile per sistemi dipendenti dal passato, dimostrando teoremi di approssimazione universale, un metodo di calcolo efficiente basato su equazioni integrali e prestazioni superiori rispetto alle firme di percorso classiche in compiti di apprendimento dinamico.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Questo articolo propone l'Invarianza Causale di Instradamento (ICR), un quadro di governance che combina il ragionamento controfattuale e la scoperta causale invariante per identificare relazioni stabili tra politiche e norme sociali, consentendo interventi interpretabili ed efficaci nelle economie di mercato online anche in presenza di cambiamenti distributivi.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

A Fast Generative Framework for High-dimensional Posterior Sampling: Application to CMB Delensing

Il paper presenta un nuovo framework generativo profondo che, superando la lentezza dei metodi basati sulla diffusione, permette un campionamento efficiente delle distribuzioni posteriori ad alta dimensionalità, dimostrando efficacia nel delensing della radiazione cosmica di fondo (CMB) e robustezza rispetto a variazioni dei parametri cosmologici.

Hadi Sotoudeh, Pablo Lemos, Laurence Perreault-Levasseur2026-03-06🔭 astro-ph

An LLM-Guided Query-Aware Inference System for GNN Models on Large Knowledge Graphs

Il paper presenta KG-WISE, un sistema di inferenza guidato da LLM che ottimizza l'esecuzione di modelli GNN su grandi grafi della conoscenza decomponendo i modelli in componenti granulari e caricando solo i dati semanticamente rilevanti, ottenendo così significativi miglioramenti in termini di velocità e consumo di memoria rispetto alle soluzioni esistenti.

Waleed Afandi, Hussein Abdallah, Ashraf Aboulnaga + 1 more2026-03-06💻 cs

Oracle-efficient Hybrid Learning with Constrained Adversaries

Questo lavoro presenta un nuovo algoritmo di apprendimento ibrido efficiente in termini di oracolo che, vincolando l'avversario a una classe di funzioni fissa, raggiunge simultaneamente ottimalità statistica ed efficienza computazionale, con applicazioni alla risoluzione di giochi a somma zero stocastici.

Princewill Okoroafor, Robert Kleinberg, Michael P. Kim2026-03-06💻 cs

Weather-Related Crash Risk Forecasting: A Deep Learning Approach for Heterogenous Spatiotemporal Data

Questo studio presenta un framework basato su un ensemble di modelli ConvLSTM che, utilizzando dati spaziotemporali eterogenei, supera le prestazioni dei modelli tradizionali nel prevedere il rischio di incidenti stradali legati alle condizioni meteorologiche, con particolare efficacia nelle zone ad alto rischio.

Abimbola Ogungbire, Srinivas Pulugurtha2026-03-06💻 cs

← Precedente Successivo →