Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Precise Parameter Localization for Textual Generation in Diffusion Models

Questo lavoro dimostra che meno dell'1% dei parametri dei modelli di diffusione, localizzati esclusivamente nei livelli di attenzione, è responsabile della generazione del testo nelle immagini, permettendo di migliorare l'efficienza, l'editing e la sicurezza del contenuto testuale attraverso tecniche mirate come il fine-tuning LoRA su questi specifici strati.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

Il paper introduce SPEED, un metodo efficiente per l'eliminazione scalabile e precisa di concetti dai modelli di diffusione testo-immagine che, modificando direttamente i parametri del modello all'interno di uno spazio nullo e utilizzando strategie di filtraggio e vincoli invarianti, garantisce la preservazione della qualità dei concetti non target permettendo di rimuovere fino a 100 concetti in soli 5 secondi.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Questo lavoro presenta un nuovo framework di valutazione multi-obiettivo, disponibile pubblicamente e applicabile in modo agnostico al modello, che facilita l'analisi sistematica dei compromessi tra utilità e equità nei sistemi di Machine Learning, con una specifica validazione empirica nel dominio dell'imaging medico.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Il paper presenta un modello di diffusione video consapevole dell'obiettivo che genera video da un'immagine di input, permettendo a un attore di interagire con un oggetto specifico definito da una maschera di segmentazione e descritto tramite un prompt testuale, migliorando così la pianificazione delle interazioni umano-oggetto e abilitando applicazioni come la sintesi di movimenti 3D e la creazione di contenuti video a lungo termine.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Il paper propone AdaRank, un nuovo framework di fusione di modelli che migliora l'efficienza e le prestazioni nel multi-task learning selezionando adattivamente le direzioni singolari più utili e rimuovendo dinamicamente quelle interferenti tramite minimizzazione dell'entropia, ottenendo risultati all'avanguardia con un divario prestazionale quasi nullo rispetto ai modelli fine-tuned.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI