Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Il paper presenta LSP, un nuovo scheduler di inferenza per i Modelli Linguistici Diffusivi che accelera la generazione del testo fino a 3,4 volte garantendo coerenza e stabilità attraverso l'assorbimento monolitico di prefissi contigui, risolvendo così i problemi di frammentazione della cache KV e di velocità tipici degli approcci esistenti.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs