cs.LG articoli | Gist.Science

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Topological derivative approach for deep neural network architecture adaptation

Questo lavoro presenta un algoritmo innovativo per l'adattamento progressivo dell'architettura delle reti neurali profonde che, sfruttando il derivato topologico di un funzionale di forma e un punto di vista di controllo ottimo, identifica matematicamente le posizioni ottimali per l'inserimento di nuovi strati e le relative inizializzazioni, superando le strategie di adattamento esistenti.

C G Krishnanunni, Tan Bui-Thanh, Clint Dawson2026-03-03🤖 cs.AI

Low-Rank Thinning

Questo lavoro introduce un'analisi a basso rango per l'assottigliamento sub-Gaussiano che garantisce una compressione di alta qualità per qualsiasi distribuzione e kernel quando i dati sono approssimativamente a basso rango, migliorando così le prestazioni in applicazioni come l'attenzione nei transformer, l'addestramento stocastico e il confronto di distribuzioni.

Annabelle Michael Carrell, Albert Gong, Abhishek Shetty + 2 more2026-03-03🤖 cs.LG

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Il paper propone un framework di adattamento robusto per i Modelli Multimodali di grandi dimensioni che migliora l'accuratezza e la generalizzazione nel rilevamento dei meme offensivi, superando le prestazioni dei sistemi supervisionati tradizionali e offrendo maggiore interpretabilità.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Benchmarking Self-Supervised Learning Methods for Accelerated MRI Reconstruction

Il paper presenta SSIBench, un framework open-source modulare per il benchmarking sistematico di 18 metodi di apprendimento auto-supervisionato per la ricostruzione accelerata della risonanza magnetica senza bisogno di immagini ground truth, fornendo un confronto standardizzato su scenari reali e proponendo nuove direzioni di ricerca come la perdita Multi-Operator Equivariant Imaging.

Andrew Wang, Steven McDonagh, Mike Davies2026-03-03⚡ eess

MoMa: A Modular Deep Learning Framework for Material Property Prediction

Il paper presenta MoMa, un framework di deep learning modulare che supera i limiti del paradigma pre-addestramento-affinamento adattando dinamicamente moduli specializzati per la previsione delle proprietà dei materiali, ottenendo un miglioramento medio del 14% rispetto alle migliori basi di riferimento su 17 dataset.

Botian Wang, Yawen Ouyang, Yaohui Li + 8 more2026-03-03🔬 cond-mat.mtrl-sci

Predictive AI Can Support Human Learning while Preserving Error Diversity

Lo studio dimostra che l'integrazione dell'IA predittiva sia nella formazione che nella pratica dei medici neofiti migliora non solo la loro accuratezza diagnostica individuale, ma preserva anche la diversità degli errori, ottimizzando di conseguenza la qualità delle decisioni di gruppo.

Vivianna Fang He, Sihan Li, Phanish Puranam + 1 more2026-03-03🤖 cs.AI

GradientStabilizer:Fix the Norm, Not the Gradient

GradientStabilizer è un metodo leggero e plug-in che risolve l'instabilità nell'addestramento dei modelli deep learning sostituendo la magnitudine dei gradienti con una stima statisticamente stabilizzata per preservarne la direzione, superando così i limiti del gradient clipping e garantendo una convergenza più robusta in vari scenari.

Tianjin Huang, Zhangyang Wang, Haotian Hu + 10 more2026-03-03🤖 cs.AI

Generalizable deep learning for photoplethysmography-based blood pressure estimation -- A Benchmarking Study

Questo studio valuta la generalizzabilità dei modelli di deep learning per la stima della pressione sanguigna tramite fotopletismografia, evidenziando come le differenze nelle distribuzioni dei dati tra dataset limitino le prestazioni su dati esterni e proponga l'adattamento di dominio come soluzione per migliorare la robustezza.

Mohammad Moulaeifard, Peter H. Charlton, Nils Strodthoff2026-03-03⚡ eess

Machine-learning for photoplethysmography analysis: Benchmarking feature, image, and signal-based approaches

Questo studio di benchmarking dimostra che, per l'analisi del fotopletismogramma (PPG), le reti neurali convoluzionali profonde che elaborano direttamente le forme d'onda grezze superano gli approcci basati su feature o immagini sia nella previsione della pressione sanguigna che nella rilevazione della fibrillazione atriale.

Mohammad Moulaeifard, Loic Coquelin, Mantas Rinkevičius + 13 more2026-03-03⚡ eess

Does Generation Require Memorization? Creative Diffusion Models using Ambient Diffusion

Il paper dimostra che è possibile ridurre significativamente la memorizzazione nei modelli di diffusione senza comprometterne la qualità, proponendo un metodo teorico e pratico che addestra i modelli utilizzando dati rumorosi a scale elevate, dove la memorizzazione non è necessaria.

Kulin Shah, Alkis Kalavasis, Adam R. Klivans + 1 more2026-03-03🤖 cs.LG

A Randomized Linearly Convergent Frank-Wolfe-type Method for Smooth Convex Minimization over the Spectrahedron

Questo lavoro presenta il primo algoritmo di tipo Frank-Wolfe che, garantendo calcoli matriciali di rango uno e convergenza lineare attesa indipendente dalla dimensione, risolve efficientemente problemi di minimizzazione convessa su spettrodi.

Dan Garber2026-03-03🔢 math

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

Effective and Efficient Masked Image Generation Models

Il paper presenta eMIGM, un modello unificato che combina generazione di immagini mascherata e diffusione mascherata per ottenere prestazioni all'avanguardia nella generazione di immagini su ImageNet con una maggiore efficienza computazionale rispetto agli approcci esistenti.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing

Questo studio analizza dieci articoli sui sistemi di raccomandazione basati su grafi presentati al SIGIR 2022, rivelando gravi problemi di riproducibilità come errori metodologici, incoerenze tra codice e descrizioni, e un uso improprio dei baselines che ne inficiano la validità delle conclusioni.

Maurizio Ferrari Dacrema, Michael Benigni, Nicola Ferro2026-03-03🤖 cs.LG

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Questo articolo dimostra teoricamente ed empiricamente che la previsione del prossimo token nelle LLM permette di apprendere rappresentazioni interpretabili dall'uomo, che corrispondono approssimativamente ai logaritmi delle probabilità posteriori di concetti latenti discreti, fornendo così una base teorica per l'ipotesi delle rappresentazioni lineari e per la valutazione degli sparse autoencoder.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Questo lavoro presenta un nuovo framework di valutazione multi-obiettivo, disponibile pubblicamente e applicabile in modo agnostico al modello, che facilita l'analisi sistematica dei compromessi tra utilità e equità nei sistemi di Machine Learning, con una specifica validazione empirica nel dominio dell'imaging medico.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

A Benchmark Dataset for Machine Learning Surrogates of Pore-Scale CO2-Water Interaction

Questo lavoro presenta un dataset di riferimento composto da 624 campioni 2D ad alta risoluzione, generati tramite simulazioni numeriche fedeli, che catturano le complesse interazioni tra CO₂ e acqua nei mezzi porosi per supportare lo sviluppo e la validazione di modelli di apprendimento automatico applicati allo stoccaggio geologico del carbonio.

Alhasan Abdellatif, Hannah P. Menke, Julien Maes + 2 more2026-03-03🤖 cs.LG

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Il paper propone AdaRank, un nuovo framework di fusione di modelli che migliora l'efficienza e le prestazioni nel multi-task learning selezionando adattivamente le direzioni singolari più utili e rimuovendo dinamicamente quelle interferenti tramite minimizzazione dell'entropia, ottenendo risultati all'avanguardia con un divario prestazionale quasi nullo rispetto ai modelli fine-tuned.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

← Precedente Successivo →