Each language version is independently generated for its own context, not a direct translation.
Immagina che l'OCR (il software che "legge" i documenti scansionati e li trasforma in testo digitale) sia come un traduttore o un segretario digitale. Il suo lavoro è prendere una foto di un foglio di carta e scriverne il contenuto al computer.
Il Problema: Il Traduttore che non capisce la Storia
Gli autori di questo studio, Fitsum e Christopher, hanno notato una cosa strana: questo "segretario digitale" è diventato bravissimo a leggere i documenti moderni, puliti e ordinati (come fatture aziendali, articoli scientifici o PDF recenti). È come se avesse studiato solo sui libri di testo delle scuole moderne.
Tuttavia, quando provi a fargli leggere giornali storici, specialmente quelli neri americani del XIX secolo (come The North Star o Freedom's Journal), il segretario si perde completamente.
Perché succede?
- Il "Manuale di Istruzioni" sbagliato: Per imparare a leggere, questi computer sono stati addestrati su enormi quantità di documenti moderni (come cause legali o articoli scientifici). Non hanno mai visto i caratteri gotici, le macchie d'inchiostro, le pieghe della carta o i layout complessi dei vecchi giornali. È come se avessi insegnato a un bambino a guidare solo su un'autostrada moderna, e poi lo avessi messo alla guida su una strada di terra piena di buche e curve strette: si schianterebbe.
- La "Cecità" delle Metriche: Come misuriamo se il segretario lavora bene? Attualmente, usiamo un metro chiamato "tasso di errore delle lettere". Se il computer indovina il 95% delle lettere, diciamo che è perfetto.
- L'analogia: Immagina di leggere un romanzo. Se il computer legge tutte le parole correttamente, ma mescola l'ordine dei paragrafi o cancella le colonne, per il nostro metro è "perfetto". Ma per un lettore umano, il libro è illeggibile! Nel caso dei vecchi giornali neri, che usavano colonne intricate per dare enfasi politica, il computer spesso distrugge questa struttura, rendendo il testo confuso o privo di senso, anche se le singole lettere sono corrette.
Cosa hanno scoperto gli autori?
Gli autori hanno fatto un'indagine (una "ricerca sistematica") guardando centinaia di studi e software tra il 2006 e il 2025. Hanno scoperto che:
- I documenti storici sono invisibili: I database usati per addestrare i computer quasi mai includono giornali storici delle comunità emarginate.
- Gli errori sono diversi: Quando questi software provano a leggere i vecchi giornali, non fanno solo errori di ortografia. Fanno errori "strutturali":
- Collasso delle colonne: Mescolano il testo della colonna 1 con quello della colonna 2, creando frasi senza senso.
- Allucinazioni: A volte, il computer "inventa" parole o frasi che non c'erano, perché pensa che siano la cosa più probabile da scrivere (come un autore che scrive una storia sbagliata ma che sembra plausibile).
- Perdita del significato: Distruggono la disposizione grafica che gli editori usavano per trasmettere messaggi politici o sociali.
L'esempio concreto: Il "Giornale Settimanale"
Per dimostrare il problema, hanno preso un vecchio giornale del 1837 (The Weekly Advocate) e lo hanno fatto leggere a tre software diversi:
- Uno vecchio (Tesseract): Ha letto le righe verticali come se fossero testo, unendo poesie e notizie civili in un unico blocco confuso.
- Uno moderno (Surya): Ha iniziato a ripetere le stesse lettere all'infinito o a inserire "spazzatura" nel testo.
- Il più avanzato (olmOCR 2): Ha "allucinato", sostituendo nomi reali con parole inventate, come se volesse correggere la storia secondo le sue idee, non secondo la realtà del documento.
Perché è importante?
Non si tratta solo di un errore tecnico. È una questione di giustizia storica.
Se i computer non riescono a leggere correttamente i documenti della storia nera americana, allora quella storia diventa "invisibile" per le ricerche future, per i musei digitali e persino per le corti supreme (come ha fatto notare un giudice della Corte Suprema usando questi documenti).
Il computer, senza volerlo, sta cancellando la voce di queste comunità perché è stato addestrato a vedere solo il mondo moderno e occidentale.
La Soluzione Proposta
Gli autori chiedono di cambiare le regole del gioco:
- Nuovi "Esami": Non basta più contare quante lettere sono corrette. Dobbiamo creare nuovi test che verifichino se il computer ha mantenuto l'ordine delle colonne, la struttura e il senso del documento.
- Nuovi "Libri di Testo": Dobbiamo addestrare questi computer sui documenti reali, sporchi, complessi e storici, non solo su quelli puliti.
- Rispetto della Cultura: Dobbiamo riconoscere che la forma di un documento storico fa parte del suo messaggio. Distruggere il layout significa distruggere la storia.
In sintesi: Questo articolo ci dice che la tecnologia è potente, ma se non la addestriamo a vedere la diversità della nostra storia, rischia di cancellarla. Dobbiamo insegnare ai computer a leggere non solo le parole, ma anche il contesto e la cultura che le circondano.