Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory

Each language version is independently generated for its own context, not a direct translation.

Immagina che i Modelli Linguistici (come ChatGPT) siano dei giganti molto intelligenti ma un po' distratti. Questi giganti leggono milioni di libri e imparano a parlare, ma a volte hanno due grossi problemi:

Allucinazioni: Raccontano cose che non sono vere con molta sicurezza (come un bambino che inventa una storia credendola vera).
Peso eccessivo: Sono così grandi e pesanti che richiedono computer costosissimi per funzionare, rendendoli lenti e difficili da usare su telefoni o dispositivi piccoli.

La tesi di Davide, intitolata "Struttura e Ridondanza nei Modelli Linguistici: Uno Studio Spettrale", propone una soluzione geniale basata su una branca della matematica chiamata Teoria delle Matrici Casuali (RMT). Per capire come funziona, usiamo due metafore principali.

1. Il "Metronomo Interiore" (EigenTrack)

Il Problema: Come facciamo a sapere se il gigante sta iniziando a inventare cose (allucinazione) prima che finisca di parlarci? Di solito, controlliamo solo la fine della frase, ma a quel punto è troppo tardi.

La Soluzione (EigenTrack):
Immagina che ogni volta che il gigante pensa, il suo cervello emetta una sorta di "suono" o "vibrazione".

Quando il gigante sta pensando a cose vere e strutturate, le sue vibrazioni sono ordinate, come un'orchestra che suona una sinfonia precisa con pochi strumenti dominanti.
Quando inizia a allucinare o a parlare di cose che non conosce (fuori dal suo "campo"), le vibrazioni diventano caotiche, come un'orchestra dove tutti suonano note a caso e il rumore di fondo copre la musica.

Come funziona:
EigenTrack è come un metronomo intelligente attaccato al cervello del gigante. Non legge le parole che esce, ma ascolta le vibrazioni interne mentre pensa.

Se sente che l'ordine sta crollando e il rumore aumenta, suona un allarme subito, prima ancora che il gigante abbia finito la frase.
È come se un insegnante notasse che un alunno sta iniziando a confondersi guardando il modo in cui muove le mani, prima ancora che dica "non lo so".

Il vantaggio: È leggero, non modifica il gigante e avvisa in tempo reale.

2. Il "Filtro Magico" (RMT-KD)

Il Problema: Questi giganti sono enormi. Immagina un archivio con 100.000 libri, ma in realtà solo 10.000 contengono informazioni utili; gli altri sono solo copie, bozze o fogli bianchi. Portare tutto questo archivio è uno spreco di energia.

La Soluzione (RMT-KD):
Qui entra in gioco la matematica per "dimagrire" il gigante senza perderne l'intelligenza.
Immagina che le informazioni nel cervello del gigante siano come un mare.

La maggior parte del mare è acqua piatta e noiosa (il "rumore" o la ridondanza).
Ci sono però alcune onde alte e potenti che portano le informazioni vere e importanti (i "segnali").

Come funziona:
Il metodo RMT-KD agisce come un filtro intelligente:

Analizza il "mare" delle informazioni.
Identifica esattamente dove sono le onde alte (i segnali importanti) e ignora l'acqua piatta (il rumore).
Taglia via tutto il peso inutile, lasciando solo le onde principali.
Poi, usa un trucco chiamato "distillazione": fa sì che il gigante "rimpicciolito" (ora molto più leggero e veloce) impari a imitare il gigante originale, mantenendo la stessa intelligenza.

Il risultato:
Otteniamo un modello che è molto più piccolo, veloce e consuma meno energia (come passare da un camion a una moto elettrica), ma che sa fare le stesse cose del camion. Non perde informazioni preziose perché ha tagliato solo il "rumore" inutile.

In Sintesi: Perché è importante?

Questa tesi ci dice che possiamo usare la matematica delle onde e dei rumori (la teoria spettrale) per risolvere due problemi opposti:

Affidabilità: Ascoltare il "rumore" interno per capire se il modello sta mentendo (EigenTrack).
Efficienza: Tagliare il "rumore" esterno per rendere il modello più leggero e veloce (RMT-KD).

È come se avessimo trovato un linguaggio comune per diagnosticare la salute di un'intelligenza artificiale e per curarla rendendola più snella, tutto basandoci su come "suona" la sua mente mentre pensa.

Each language version is independently generated for its own context, not a direct translation.

Sintesi Tecnica della Tesi

Titolo: Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory
Autore: Davide Ettori
Ambito: Ingegneria Informatica (Laurea Magistrale)
Anno Accademico: 2025-2026

1. Il Problema e il Contesto

La tesi affronta due sfide critiche e interconnesse nel campo dei Large Language Models (LLM) e dei modelli Vision-Language (VLM):

Affidabilità (Reliability): I modelli soffrono di allucinazioni (generazione di informazioni false) e fallimenti su dati fuori distribuzione (OOD), che erodono la fiducia nell'uso dei sistemi AI.
Efficienza: Le risorse computazionali richieste per addestrare e distribuire modelli su larga scala sono proibitive, limitando la loro diffusione pratica.

Le soluzioni attuali si dividono spesso in approcci separati: metodi basati sull'output (black-box) o sull'incertezza dei logit per l'affidabilità, e tecniche di compressione (distillazione, pruning, quantizzazione) per l'efficienza. La tesi propone un approccio unificato basato sulla Geometria Spettrale e sulla Teoria delle Matrici Casuali (RMT), sostenendo che le dinamiche interne delle rappresentazioni contengono segnali interpretabili sia per il rilevamento di errori che per l'ottimizzazione della struttura del modello.

2. Fondamenti Teorici: Teoria delle Matrici Casuali (RMT)

Il lavoro si fonda su concetti matematici avanzati per distinguere il "segnale" dal "rumore" nelle attivazioni dei neuroni:

Legge di Marchenko-Pastur (MP): Descrive la distribuzione spettrale di matrici di covarianza generate da rumore casuale (il "bulk" spettrale).
Modello a Covarianza Spiked: Assume che le rappresentazioni utili siano segnali a basso rango (spike) immersi in rumore isotropo.
Transizione BBP (Baik-Ben Arous-Péché): Stabilisce che quando un segnale supera una certa soglia, il suo autovalore si stacca dal bulk di Marchenko-Pastur, diventando un "outlier".
Ipotesi di Lavoro: Le rappresentazioni fattuali e strutturate tendono a mantenere autovalori outlier (struttura), mentre le allucinazioni o i dati OOD spingono lo spettro verso il comportamento del bulk (rumore isotropo).

3. Metodologie e Contributi Chiave

La tesi introduce due contributi principali che applicano questi principi teorici:

A. EigenTrack: Monitoraggio dell'Affidabilità in Tempo Reale

Obiettivo: Rilevare precocemente allucinazioni e comportamenti OOD senza modificare il modello base.
Funzionamento:
- Monitora l'evoluzione della geometria delle attivazioni nascoste durante la generazione del testo.
- Estrae descrittori spettrali da una finestra scorrevole di attivazioni (tramite SVD): entropia spettrale, massa degli autovalori principali, gap tra autovalori e divergenza (KL/Wasserstein) rispetto alla baseline MP.
- Utilizza una testa ricorrente leggera (RNN/GRU/LSTM) per analizzare la serie temporale di questi descrittori, imparando le traiettorie tipiche di generazioni stabili vs. instabili.
Vantaggi: È non invasivo (non richiede gradienti o ri-addestramento), offre avvisi precoci (prima che l'allucinazione si manifesti nel testo) e ha un overhead computazionale minimo.

B. RMT-KD: Framework di Compressione Basato su RMT

Obiettivo: Comprimere i modelli preservando le direzioni causali informative e rimuovendo le ridondanze.
Funzionamento:
- Analizza lo spettro degli autovalori delle attivazioni per identificare il bordo superiore del bulk di Marchenko-Pastur ( $\lambda_+$ ).
- Proietta le attivazioni sullo spazio generato dagli autovettori corrispondenti agli autovalori "outlier" (segnale), riducendo la larghezza del layer.
- Utilizza una distillazione self-supervised: dopo ogni proiezione, il modello ridotto (studente) viene fine-tuned per imitare i logit del checkpoint precedente (insegnante), prevenendo la "catastrophic forgetting".
Vantaggi: Produce modelli densi (hardware-friendly, compatibili con kernel GPU standard) che offrono riduzioni parametriche significative senza perdita di accuratezza.

4. Risultati Sperimentali

Valutazione di EigenTrack:

Dataset: Valutato su modelli open-source (LLaMa, Qwen, Mistral, LLaVa) per rilevamento di allucinazioni (HotPotQA) e OOD (EurLex vs WebQuestions).
Performance:
- Raggiunge un AUROC elevato (es. 0.894 su LLaMa 7B per le allucinazioni), superando metodi state-of-the-art come SelfCheckGPT, INSIDE e HaloScope.
- Le performance migliorano con la scala del modello, suggerendo che modelli più grandi hanno firme spettrali più distinguibili.
- L'analisi temporale conferma che le allucinazioni seguono traiettorie spettrali distinte (maggiore entropia, minori gap) rispetto alle generazioni fattuali.
- L'ablation study mostra che finestre temporali di circa 25 token offrono il miglior compromesso tra accuratezza e latenza.

Valutazione di RMT-KD:

Dataset: Valutato su BERT-base, BERT-tiny (task GLUE: SST, QQP, QNLI) e ResNet-50 (CIFAR-10).
Performance:
- Compressione: Raggiunge riduzioni parametriche fino all'80.9% su BERT-base e 47.7% su ResNet-50.
- Accuratezza: In molti casi, l'accuratezza migliora (es. +1.8% su BERT-base) rispetto al modello originale, agendo come regolarizzatore.
- Efficienza di Sistema: Aumento del throughput (fino a 3x), riduzione del consumo energetico e della memoria.
- Confronto con baseline (DistilBERT, PKD, AT): RMT-KD offre un rapporto compressione/accuratezza superiore mantenendo la densità del modello.

5. Significato e Conclusioni

Questa tesi dimostra che la geometria spettrale e la RMT forniscono un linguaggio unificato per la diagnosi e l'ottimizzazione dei Deep Learning:

Unificazione: Lo stesso principio matematico (separazione segnale/rumore tramite autovalori) risolve problemi di affidabilità (rilevamento) ed efficienza (compressione).
Interpretabilità: I descrittori spettrali offrono segnali interpretabili sulle dinamiche interne del modello, andando oltre le semplici probabilità di output.
Praticità: Le soluzioni proposte sono leggere, non invasive e compatibili con l'hardware esistente (modelli densi), rendendole adatte al deployment reale.

Limitazioni e Lavori Futuri:
Il lavoro attuale si concentra su modelli di dimensioni moderate. Le sfide future includono l'estensione a modelli multimodali su larga scala, l'integrazione di risolutori di autovalori approssimati per ridurre il costo computazionale della fase di analisi e l'analisi combinata su matrici di attenzione.

In sintesi, la tesi di Ettori stabilisce che il monitoraggio e la manipolazione degli autovalori delle attivazioni interne rappresentano una via promettente e rigorosa per rendere i modelli AI più affidabili, efficienti e comprensibili.

Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory

1. Il "Metronomo Interiore" (EigenTrack)

2. Il "Filtro Magico" (RMT-KD)

In Sintesi: Perché è importante?

Sintesi Tecnica della Tesi

1. Il Problema e il Contesto

2. Fondamenti Teorici: Teoria delle Matrici Casuali (RMT)

3. Metodologie e Contributi Chiave

A. EigenTrack: Monitoraggio dell'Affidabilità in Tempo Reale

B. RMT-KD: Framework di Compressione Basato su RMT

4. Risultati Sperimentali

5. Significato e Conclusioni

Articoli simili

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks