Menu Pricing of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere il proprietario di una pizzeria magica. Non è una pizzeria normale: la tua pizza può adattarsi istantaneamente a qualsiasi gusto, da quella per un bambino che vuole solo formaggio a quella per un gourmet che cerca ingredienti esotici. Questa pizzeria è un Modello Linguistico Intelligente (LLM) come ChatGPT o Claude.

Il problema? Non sai quanto fame abbiano i tuoi clienti prima che arrivino, né quanto siano esigenti. Alcuni vogliono solo un assaggio, altri vorrebbero mangiare l'intera cucina. Inoltre, non puoi controllare cosa mangiano esattamente, solo quanto pagano.

Questo articolo di Dirk Bergemann, Alessandro Bonatti e Alex Smolin è come una ricetta segreta per capire come questa pizzeria dovrebbe vendere le sue pizze per guadagnare il massimo, senza spaventare i clienti o regalare troppo.

Ecco i concetti chiave spiegati in modo semplice:

1. Il "Conto alla Spesa" invece del "Menu Fisso"

Nella vita reale, le aziende di intelligenza artificiale vendono i loro servizi in modi confusi: abbonamenti mensili, pagamento a "token" (pezzi di testo), o crediti. Gli autori dicono: "Fermiamoci e pensiamo alla logica".

Hanno scoperto che, nonostante ogni cliente abbia esigenze diverse (alcuni scrivono codice, altri scrivono poesie), si può riassumere tutto in un unico numero magico: la "fame totale" del cliente.

L'analogia: Immagina che invece di vendere "3 pizze margherita e 2 di peperoni", tu venda un buono spesa di 50 euro. Il cliente può spendere questi 50 euro come vuole: 10 pizze piccole o 2 pizze giganti.
La scoperta: Il modo migliore per vendere non è dire "tu hai diritto a 100 parole", ma dire "ecco un budget di 100 crediti, spendili come vuoi". Questo trasforma un problema complicatissimo (migliaia di gusti diversi) in un problema semplice (quanto è grande il tuo budget?).

2. I Tre Modi per Vendere (e come le aziende lo fanno già)

Gli autori mostrano che ci sono tre modi principali per strutturare questi "buoni spesa", e tutti e tre li vediamo già usati oggi:

Il "Tetto Massimo" (Maximum Spend):
- Cos'è: "Paga 20€ al mese e hai diritto a spendere fino a 1 milione di crediti. Se li finisci, stop. Niente extra."
- Esempio reale: Quora Poe. Ti danno un certo numero di "punti" al mese. Se li usi tutti, non puoi più usare l'IA finché non ricomincia il mese. È come un buffet a prezzo fisso: se mangi troppo, non ti danno altro.
Il "Sconto per Impegno" (Minimum Spend):
- Cos'è: "Paga 20€ al mese per avere accesso, ma se superi il tuo limite, paghi un po' di più per ogni parola extra."
- Esempio reale: GitHub Copilot. Ti dà un certo numero di richieste "premium" al mese. Se le finisci, puoi continuare a usarlo pagando una tariffa oraria aggiuntiva. È come un abbonamento telefonico con scatti a consumo dopo la soglia.
Il "Prezzo Lineare" (API per Sviluppatori):
- Cos'è: "Non c'è abbonamento. Paghi solo per quello che usi, esattamente al costo di produzione."
- Esempio reale: Le API di OpenAI o Google per gli sviluppatori. È come comprare la farina e il pomodoro al mercato: paghi solo ciò che porti a casa. Le aziende fanno così per attirare più clienti, anche se guadagnano meno per singolo utente.

3. La Gerarchia dei Modelli (Piccoli vs. Giganti)

Oggi le aziende offrono diversi modelli: uno veloce e "stupido" (per cose semplici) e uno lento e "genio" (per ragionamenti complessi).

La strategia: Le aziende più grandi (come OpenAI) non vendono solo "più pizze", ma vendono accesso a chef diversi.
- L'abbonamento economico ti dà accesso allo chef "fai-da-te" (modelli veloci).
- L'abbonamento costoso ti dà accesso allo chef "stellato" (modelli avanzati come o1 o Opus).
La logica: Chi è disposto a pagare di più non vuole solo più pizze, vuole pizze migliori. Quindi, il prezzo più alto ti sblocca l'accesso a strumenti più potenti, non solo a più quantità.

4. La Concorrenza: Il "Venditore di Strada" vs. Il "Re"

Immagina che ci sia un grande ristorante di lusso (il proprietario dell'IA) e un venditore ambulante che vende pizze fatte in casa a prezzo di costo (i modelli open-source gratuiti o economici).

I clienti poveri: Vanno dal venditore ambulante. Non ne vale la pena pagare il ristorante.
I clienti ricchi: Vanno direttamente al ristorante di lusso.
I clienti di medio livello: È qui che succede la magia. Il ristorante di lusso deve offrire un'offerta esattamente tale che questi clienti pensino: "Meglio pagare il ristorante e non dovermi preoccupare del venditore ambulante". Il ristorante deve vendere loro esattamente la quantità giusta per non farli scappare dal venditore ambulante, ma non abbastanza da regalare loro troppi profitti.

In Sintesi

Questo studio dice che il caos attuale dei prezzi dell'Intelligenza Artificiale non è casuale. C'è una logica matematica precisa dietro:

Riduci la complessità: Non vendere "token per task", vendi un budget totale.
Sfrutta la concorrenza: Se c'è un'alternativa economica, devi offrire un pacchetto che renda inutile quella alternativa per i clienti di fascia media.
Versiona il prodotto: Chi paga di più deve avere accesso a strumenti più potenti, non solo a più quantità.

In pratica, le aziende stanno già applicando queste regole (anche se non lo sanno!) per massimizzare i profitti. Gli autori hanno solo trovato la "ricetta matematica" che spiega perché le loro strategie funzionano.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del documento di ricerca "Menu Pricing of Large Language Models" di Dirk Bergemann, Alessandro Bonatti e Alex Smolin, redatta in italiano.

1. Il Problema: Pricing e Screening Multidimensionale

Il lavoro affronta la sfida teorica di determinare il prezzo ottimale e il design del prodotto per i Modelli Linguistici di Grande Dimensione (LLM). Il problema di base è un problema di screening multidimensionale complesso:

Informazione Privata: Gli utenti possiedono un profilo di tipo infinito-dimensionale, definito come una funzione che mappa un continuum di compiti (task) ai loro valori marginali.
Azione Nascosta (Moral Hazard): Il fornitore può misurare il consumo totale di token, ma non può osservare né vincolare come l'utente alloca questi token tra i vari compiti. L'utente decide liberamente la distribuzione.
Spazio di Allocazione: Lo spazio delle decisioni è ad alta dimensionalità (token di diverse classi: input, output, fine-tuning) distribuiti su molti compiti.

A priori, questo sembra un problema intrattabile a causa della combinazione di informazione asimmetrica infinita e azione nascosta.

2. Metodologia e Ipotesi Fondamentali

Gli autori sviluppano un quadro di design dei meccanismi basato su specifiche ipotesi tecnologiche che rendono il problema risolvibile:

Tecnologia di Produzione Omogenea: La funzione di guadagno (performance) è separabile moltiplicativamente tra token di inferenza ( $x$ ) e token di fine-tuning ( $z$ ): $g(x, z) = \Psi(x)\Phi(z)$ .
Omogeneità e Rendimenti Decrescenti: La funzione $\Psi$ è omogenea di grado $\sigma \in (0,1)$ e strettamente concava. Questa è l'ipotesi cruciale: garantisce che il mix ottimale di classi di token sia invariante rispetto alla scala. Indipendentemente dal valore del compito, la proporzione tra input e output token rimane costante; cambia solo la scala totale.
Riduzione a Statistica Sufficiente: Grazie all'omogeneità, il profilo di tipo ad alta dimensionalità dell'utente collassa in un indice scalare, chiamato "tipo aggregato" ( $\theta$ ).
$\theta(w) \triangleq \left( \int_0^1 w_i^{\frac{1}{1-\sigma}} di \right)^{1-\sigma}$
Due utenti con profili di compiti molto diversi ma lo stesso tipo aggregato $\theta$ richiedono la stessa quantità totale di risorse e ottengono lo stesso surplus.

Questo risultato riduce il problema di screening multidimensionale a un classico problema di screening unidimensionale (alla Mussa e Rosen, 1978).

3. Risultati Chiave e Meccanismi Ottimali

A. Allocazione Efficiente e Prezzi Lineari

In un contesto efficiente (o in presenza di vincoli di capacità), l'allocazione ottimale richiede che tutti i compiti utilizzino i token di inferenza nelle stesse proporzioni.

Risultato: L'allocazione efficiente vincolata può essere implementata tramite prezzi lineari uguali ai costi marginali "gonfiati" dai costi ombra delle capacità.
Implicazione: Questo giustifica teoricamente la pratica osservata nel mercato delle API per sviluppatori, dove il pricing è lineare per token senza sconti di volume.

B. Meccanismo Ottimale per Monopolio (Single-Model)

Per un monopolista che vende un singolo modello, il meccanismo ottimale si presenta come un menu di contratti di spesa impegnata (committed-spend):

Struttura: Il venditore offre un menu di budget monetari. L'utente paga una tariffa fissa per un budget che può allocare liberamente tra diverse classi di token, prezzati al costo marginale del fornitore.
Distorsione: Come nei modelli standard di screening, i tipi bassi sono esclusi e la qualità (quantità di token) è distorta al ribasso per tutti gli altri, tranne il tipo più alto.
Implementazioni Indirette: Il meccanismo diretto può essere implementato in tre modi pratici:
1. Spesa Massima (Maximum-Spend): Un budget rigido (es. crediti) con prezzi al costo marginale. Una volta esauriti i crediti, l'accesso cessa.
2. Spesa Minima (Minimum-Spend): Impegno a spendere una certa somma per ottenere prezzi unitari più bassi (sconti di volume).
3. Tariffe a due parti: Una tariffa fissa più un prezzo per token.

C. Modelli Multipli e Versioning

Quando il venditore offre modelli differenziati (es. modelli base vs. modelli avanzati di ragionamento):

Allocazione Ottimale: Se i modelli condividono lo stesso parametro di rendimenti di scala ma differiscono nei rendimenti del fine-tuning, ogni tipo di utente utilizza un solo modello per tutti i suoi compiti.
Versioning: I piani di livello superiore non offrono solo più token, ma danno accesso a modelli più capaci. Il passaggio tra modelli avviene a soglie discrete, con salti nella qualità.
Esempio: OpenAI riserva i suoi modelli più costosi (es. o1-pro) ai tier più alti, allineandosi a questa previsione teorica.

D. Competizione: Leader Proprietario vs. Frangia Open-Source

Analizzando la competizione tra un leader proprietario e una frangia competitiva open-source (che vende a costo marginale):

Tre Regimi: Emergono tre regioni distinte per i tipi di utenti:
1. Bassi: Acquistano esclusivamente dalla frangia.
2. Intermedi: Il leader offre una quantità esatta di token per deterrenza (deterrence), rendendo l'utente indifferente tra l'usare solo il leader o integrare con la frangia.
3. Alti: Il leader agisce come monopolista senza vincoli, offrendo quantità distorte al ribasso.
Implicazione: La competizione modifica sia il margine intensivo (quanto viene venduto) sia quello estensivo (chi adotta il modello proprietario).

4. Significato e Applicazioni Pratiche

Il contributo principale del paper è fornire una fondazione teorica rigorosa per le pratiche di pricing osservate nell'industria degli LLM, dimostrando che non sono scelte ad hoc, ma risposte a forze economiche fondamentali:

Anthropic: Implementa il meccanismo di budget di token (Proposizione 3). Offre gli stessi modelli a tutti i tier, differenziandosi solo per la quantità di computazione (budget), coerentemente con la teoria del monopolio a modello singolo.
OpenAI: Implementa il menu multi-modello (Proposizione 6). Differenzia i tier sia per quantità che per accesso esclusivo a modelli avanzati (es. modelli di ragionamento), coerentemente con la teoria del versioning.
Aggregatori (Poe, GitHub Copilot): Implementano i meccanismi di spesa impegnata (Sezione 4.2).
- Poe: Utilizza un sistema di "punti" con un tetto rigido (Maximum-Spend).
- GitHub Copilot: Utilizza un sistema di budget con possibilità di overage a prezzi lineari (Minimum-Spend).
API per Sviluppatori: Il pricing lineare senza sconti di volume riflette l'allocazione efficiente vincolata (Corollario 1), suggerendo che i fornitori danno priorità all'adozione di mercato e alla copertura dei costi marginali rispetto all'estrazione di rendite in questo segmento.

Conclusione

Il paper dimostra che, nonostante la complessità apparente dell'allocazione di risorse in compiti eterogenei, l'omogeneità della tecnologia LLM permette una riduzione a un problema unidimensionale. Questo permette di derivare meccanismi ottimali che spiegano perfettamente la struttura dei prezzi osservata nel mercato attuale, fornendo una base solida per comprendere la transizione del settore da una fase di crescita (prezzi aggressivi) a una di massimizzazione del profitto.