CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Topological derivative approach for deep neural network architecture adaptation

Questo lavoro presenta un algoritmo innovativo per l'adattamento progressivo dell'architettura delle reti neurali profonde che, sfruttando il derivato topologico di un funzionale di forma e un punto di vista di controllo ottimo, identifica matematicamente le posizioni ottimali per l'inserimento di nuovi strati e le relative inizializzazioni, superando le strategie di adattamento esistenti.

C G Krishnanunni, Tan Bui-Thanh, Clint Dawson2026-03-03🤖 cs.AI

Benchmarking Self-Supervised Learning Methods for Accelerated MRI Reconstruction

Il paper presenta SSIBench, un framework open-source modulare per il benchmarking sistematico di 18 metodi di apprendimento auto-supervisionato per la ricostruzione accelerata della risonanza magnetica senza bisogno di immagini ground truth, fornendo un confronto standardizzato su scenari reali e proponendo nuove direzioni di ricerca come la perdita Multi-Operator Equivariant Imaging.

Andrew Wang, Steven McDonagh, Mike Davies2026-03-03⚡ eess

Generalizable deep learning for photoplethysmography-based blood pressure estimation -- A Benchmarking Study

Questo studio valuta la generalizzabilità dei modelli di deep learning per la stima della pressione sanguigna tramite fotopletismografia, evidenziando come le differenze nelle distribuzioni dei dati tra dataset limitino le prestazioni su dati esterni e proponga l'adattamento di dominio come soluzione per migliorare la robustezza.

Mohammad Moulaeifard, Peter H. Charlton, Nils Strodthoff2026-03-03⚡ eess

Machine-learning for photoplethysmography analysis: Benchmarking feature, image, and signal-based approaches

Questo studio di benchmarking dimostra che, per l'analisi del fotopletismogramma (PPG), le reti neurali convoluzionali profonde che elaborano direttamente le forme d'onda grezze superano gli approcci basati su feature o immagini sia nella previsione della pressione sanguigna che nella rilevazione della fibrillazione atriale.

Mohammad Moulaeifard, Loic Coquelin, Mantas Rinkevičius + 13 more2026-03-03⚡ eess

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Questo articolo dimostra teoricamente ed empiricamente che la previsione del prossimo token nelle LLM permette di apprendere rappresentazioni interpretabili dall'uomo, che corrispondono approssimativamente ai logaritmi delle probabilità posteriori di concetti latenti discreti, fornendo così una base teorica per l'ipotesi delle rappresentazioni lineari e per la valutazione degli sparse autoencoder.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Questo lavoro presenta un nuovo framework di valutazione multi-obiettivo, disponibile pubblicamente e applicabile in modo agnostico al modello, che facilita l'analisi sistematica dei compromessi tra utilità e equità nei sistemi di Machine Learning, con una specifica validazione empirica nel dominio dell'imaging medico.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

A Benchmark Dataset for Machine Learning Surrogates of Pore-Scale CO2-Water Interaction

Questo lavoro presenta un dataset di riferimento composto da 624 campioni 2D ad alta risoluzione, generati tramite simulazioni numeriche fedeli, che catturano le complesse interazioni tra CO₂ e acqua nei mezzi porosi per supportare lo sviluppo e la validazione di modelli di apprendimento automatico applicati allo stoccaggio geologico del carbonio.

Alhasan Abdellatif, Hannah P. Menke, Julien Maes + 2 more2026-03-03🤖 cs.LG

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Il paper propone AdaRank, un nuovo framework di fusione di modelli che migliora l'efficienza e le prestazioni nel multi-task learning selezionando adattivamente le direzioni singolari più utili e rimuovendo dinamicamente quelle interferenti tramite minimizzazione dell'entropia, ottenendo risultati all'avanguardia con un divario prestazionale quasi nullo rispetto ai modelli fine-tuned.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI