Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Questo lavoro propone un nuovo modello causale parziale latente per l'apprendimento multimodale che, superando i limiti dei DAG tradizionali, dimostra teoricamente e verifica sperimentalmente come l'apprendimento contrastivo multimodale (MMCL) e modelli pre-addestrati come CLIP possano generare rappresentazioni disaccoppiate robuste, migliorando l'apprendimento con pochi esempi e la generalizzazione di dominio.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Questo lavoro propone il metodo USEFUL, che riduce il pregiudizio verso la semplicità modificando la distribuzione dei dati di addestramento tramite un campionamento mirato basato sull'output iniziale della rete, migliorando così la generalizzazione in-distribuzione e ottenendo prestazioni state-of-the-art su diversi dataset e architetture.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Il paper presenta PO-GUISE+, un trasformatore video multi-task che migliora l'efficienza computazionale e l'accuratezza nel riconoscimento delle azioni distratte alla guida selezionando i token in base alla postura del conducente e agli oggetti interagenti, superando gli attuali metodi sullo stato dell'arte su diversi dataset e piattaforme embedded.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

Il paper presenta XPoint, un'architettura auto-supervisionata basata su spazi di stato visivi e modulare che supera le limitazioni dei metodi attuali nell'allineamento di immagini multispettrali, ottenendo prestazioni superiori su diverse combinazioni di modalità grazie all'uso di un encoder VMamba e a testine di decodifica specializzate.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG