cs.LG articoli | Gist.Science

Return Augmented Decision Transformer for Off-Dynamics Reinforcement Learning

Il paper propone REAG, un metodo che allinea la distribuzione dei ritorni tra dominio sorgente e target per adattare i Decision Transformer all'apprendimento offline con dinamiche diverse, ottenendo teoricamente e sperimentalmente prestazioni ottimali senza perdita dovuta allo shift dinamico.

Ruhan Wang, Yu Yang, Zhishuai Liu + 2 more2026-03-03📊 stat

One protein is all you need

Il paper presenta ProteinTTT, un metodo di adattamento self-supervised che personalizza i modelli linguistici proteici su singoli target specifici durante il test, migliorando significativamente le prestazioni nella previsione di struttura, fitness e funzione rispetto ai modelli generici.

Anton Bushuiev, Roman Bushuiev, Olga Pimenova + 9 more2026-03-03🧬 q-bio

LD-EnSF: Synergizing Latent Dynamics with Ensemble Score Filters for Fast Data Assimilation with Sparse Observations

Il lavoro propone LD-EnSF, un nuovo metodo di assimilazione dei dati basato su punteggi che, evolvendo le dinamiche in uno spazio latente compatto e utilizzando encoder LSTM storici, elimina la necessità di simulazioni complete nello spazio fisico, garantendo velocità superiori di ordini di grandezza e alta accuratezza anche con osservazioni sparse e rumorose.

Pengpeng Xiao, Phillip Si, Peng Chen2026-03-03🤖 cs.LG

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Il paper presenta DAWN-FM, un metodo di Flow Matching che integra embedding di dati e rumore per risolvere problemi inversi mal posti in modo robusto, permettendo anche la quantificazione dell'incertezza attraverso la generazione di molteplici esiti plausibili.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

Learning sparsity-promoting regularizers for linear inverse problems

Questo articolo presenta un nuovo approccio basato su un'ottimizzazione bilevel per apprendere regolarizzatori che promuovono la sparsità in problemi inversi lineari, garantendo la ben-postezza del problema e fornendo limiti di complessità del campione attraverso esempi teorici e simulazioni numeriche.

Giovanni S. Alberti, Ernesto De Vito, Tapio Helin + 3 more2026-03-03📊 stat

Efficient Aircraft Design Optimization Using Multi-Fidelity Models and Multi-fidelity Physics Informed Neural Networks

Questa ricerca propone un approccio innovativo per l'ottimizzazione del design aeronautico che combina modelli multi-fidelity e reti neurali fisicamente informate (MPINN) per ridurre i costi computazionali mantenendo alta accuratezza nelle valutazioni di progetto.

Apurba Sarker2026-03-03🤖 cs.LG

On Demographic Group Fairness Guarantees in Deep Learning

Questo lavoro presenta un quadro teorico che analizza l'impatto delle differenze distributive tra gruppi demografici sulla giustizia nei modelli di deep learning, proponendo e validando sperimentalmente una regolarizzazione consapevole della giustizia (FAR) che migliora le prestazioni di equità e accuratezza su diversi dataset.

Yan Luo, Congcong Wen, Min Shi + 3 more2026-03-03🤖 cs.LG

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Questo lavoro estende il framework di amplificazione della privacy per iterazione (PABI) ad algoritmi con mappe gradiente non necessariamente non espansive, derivando nuovi limiti dimension-free per i tempi di miscelazione dell'algoritmo Langevin proiettato e curve di privacy per la discesa del gradiente stocastica rumorosa basate sulla regolarità dei gradienti.

Mario Bravo, Juan P. Flores-Mella, Cristóbal Guzmán2026-03-03📊 stat

On weight and variance uncertainty in neural networks for regression tasks

Questo studio estende il framework di incertezza sui pesi di Blundell et al. (2015) incorporando l'incertezza sulla varianza nelle reti neurali per la regressione, dimostrando che modellare esplicitamente la distribuzione a posteriori della varianza migliora significativamente le prestazioni di generalizzazione su diverse architetture e dataset.

Moein Monemi, Morteza Amini, S. Mahmoud Taheri + 1 more2026-03-03🤖 cs.LG

Improving the adaptive and continuous learning capabilities of artificial neural networks: Lessons from multi-neuromodulatory dynamics

Questo studio esplora come l'integrazione di dinamiche multi-neuromodulatorie, ispirate ai sistemi biologici, possa migliorare l'apprendimento continuo e adattivo delle reti neurali artificiali, riducendo l'oblio catastrofico e aumentando la robustezza in ambienti volatili.

Jie Mei, Alejandro Rodriguez-Garcia, Daigo Takeuchi + 4 more2026-03-03🧬 q-bio

AI/ML Based Detection and Categorization of Covert Communication in IPv6 Network

Questo studio propone un approccio basato sull'intelligenza artificiale e sul machine learning per rilevare e categorizzare le comunicazioni covert nelle reti IPv6, superando le limitazioni degli scenari precedenti attraverso la generazione di dataset realistici, l'addestramento di modelli avanzati (come Random Forest, CNN e LSTM) che raggiungono un'accuratezza superiore al 90%, e l'introduzione di un nuovo framework di affinamento guidato dall'IA generativa.

Mohammad Wali Ur Rahman, Yu-Zheng Lin, Carter Weeks + 6 more2026-03-03🤖 cs.AI

Multiscale Training of Convolutional Neural Networks

Il paper propone un metodo di addestramento multiscale per le reti neurali convoluzionali che, combinando la stima multigradiente (MGE) e un algoritmo Full-Multiscale, riduce i costi computazionali fino a 16 volte per immagini ad alta risoluzione mantenendo inalterate le prestazioni.

Shadab Ahamed, Niloufar Zakariaei, Eldad Haber + 1 more2026-03-03🤖 cs.LG

Data-Driven Prediction and Control of Hammerstein-Wiener Systems with Implicit Gaussian Processes

Questo lavoro propone un metodo di previsione e controllo basato su dati per sistemi Hammerstein-Wiener che utilizza processi gaussiani fisicamente informati con kernel strutturati e punti derivati virtuali per garantire prestazioni superiori rispetto ai modelli black-box.

Mingzhou Yin, Matthias A. Müller2026-03-03⚡ eess

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Topological derivative approach for deep neural network architecture adaptation

Questo lavoro presenta un algoritmo innovativo per l'adattamento progressivo dell'architettura delle reti neurali profonde che, sfruttando il derivato topologico di un funzionale di forma e un punto di vista di controllo ottimo, identifica matematicamente le posizioni ottimali per l'inserimento di nuovi strati e le relative inizializzazioni, superando le strategie di adattamento esistenti.

C G Krishnanunni, Tan Bui-Thanh, Clint Dawson2026-03-03🤖 cs.AI

Low-Rank Thinning

Questo lavoro introduce un'analisi a basso rango per l'assottigliamento sub-Gaussiano che garantisce una compressione di alta qualità per qualsiasi distribuzione e kernel quando i dati sono approssimativamente a basso rango, migliorando così le prestazioni in applicazioni come l'attenzione nei transformer, l'addestramento stocastico e il confronto di distribuzioni.

Annabelle Michael Carrell, Albert Gong, Abhishek Shetty + 2 more2026-03-03🤖 cs.LG

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Il paper propone un framework di adattamento robusto per i Modelli Multimodali di grandi dimensioni che migliora l'accuratezza e la generalizzazione nel rilevamento dei meme offensivi, superando le prestazioni dei sistemi supervisionati tradizionali e offrendo maggiore interpretabilità.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Benchmarking Self-Supervised Learning Methods for Accelerated MRI Reconstruction

Il paper presenta SSIBench, un framework open-source modulare per il benchmarking sistematico di 18 metodi di apprendimento auto-supervisionato per la ricostruzione accelerata della risonanza magnetica senza bisogno di immagini ground truth, fornendo un confronto standardizzato su scenari reali e proponendo nuove direzioni di ricerca come la perdita Multi-Operator Equivariant Imaging.

Andrew Wang, Steven McDonagh, Mike Davies2026-03-03⚡ eess

MoMa: A Modular Deep Learning Framework for Material Property Prediction

Il paper presenta MoMa, un framework di deep learning modulare che supera i limiti del paradigma pre-addestramento-affinamento adattando dinamicamente moduli specializzati per la previsione delle proprietà dei materiali, ottenendo un miglioramento medio del 14% rispetto alle migliori basi di riferimento su 17 dataset.

Botian Wang, Yawen Ouyang, Yaohui Li + 8 more2026-03-03🔬 cond-mat.mtrl-sci

← Precedente Successivo →