Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Each language version is independently generated for its own context, not a direct translation.

Immagina di trovarti di fronte a un antico manoscritto giapponese, scritto secoli fa. È un tesoro di storia, ma c'è un problema: la scrittura è un "cursivo" antico chiamato Kuzushiji, che sembra quasi un'opera d'arte astratta per i nostri occhi moderni. È così veloce e stilizzata che pochissimi giapponesi oggi riescono a leggerla.

Per fortuna, l'intelligenza artificiale è arrivata in soccorso per decifrare questi testi. Ma c'è un "mostro" che ostacola anche i migliori computer: i sigilli rossi.

Il Problema: I Sigilli come "Graffiti" sul Testo

Nell'antico Giappone, le persone apponevano timbri rossi (simili ai nostri timbri o firme) su lettere e documenti ufficiali. Spesso, questi timbri venivano messi sopra le parole, coprendole o sovrapponendosi ad esse.

Immagina di dover leggere un libro di testo, ma qualcuno ha preso un pennarello rosso e ha fatto scarabocchi sopra le parole importanti. Per un computer, questo è un incubo: non riesce a distinguere se quella macchia rossa fa parte della lettera o è un'aggiunta estranea. I sistemi attuali, quando vedono questi timbri, spesso sbagliano la lettura o si bloccano.

La Soluzione: Il "Restauro Guidato" (RG-KCR)

Gli autori di questo studio, ricercatori dell'Università di Kyoto, hanno creato un nuovo sistema chiamato RG-KCR. Pensalo come un restauro digitale in tre atti, simile a un team di esperti che lavora su un dipinto danneggiato.

Ecco come funziona, passo dopo passo:

1. Il Rilevatore (L'Occhio Vigile)

Prima di tutto, il sistema deve sapere dove sono le lettere. Usano un modello di intelligenza artificiale molto veloce (chiamato YOLOv12) che agisce come un cacciatore di lettere.

L'analogia: Immagina un cane da caccia addestrato a trovare solo le "parole" in una foresta di macchie e disegni. Anche se ci sono macchie rosse (i sigilli) che coprono parzialmente le parole, questo cane è così bravo che riesce a dire: "Ehi, sotto quella macchia rossa c'è ancora una lettera!".
Risultato: Il sistema disegna un riquadro verde attorno a ogni singolo carattere, ignorando il caos circostante.

2. Il Restauratore (Il Mago dei Colori)

Una volta individuate le lettere, il sistema deve "pulire" l'immagine dai timbri rossi. Qui entra in gioco la parte più creativa.

L'analogia: Immagina di avere un filtro magico per le foto. Poiché i timbri sono rossi e l'inchiostro della scrittura è nero (o marrone), il computer sa esattamente quale "colore" rimuovere. È come se avessi un pennello digitale che cancella solo il rosso, lasciando intatto il nero.
Il trucco: Non serve addestrare un'IA complessa per questo. Usano un algoritmo semplice ed efficiente che dice: "Se un pixel è molto rosso e non è nero, cancellalo e riempi quel buco con il colore della carta circostante". È come se il computer "riparasse" la carta strappata dal timbro, rendendo la lettera sottostante di nuovo leggibile.

3. Il Classificatore (Il Traduttore Esperto)

Ora che le lettere sono state individuate e "pulite" dai timbri, il sistema le mostra a un esperto digitale (chiamato Metom).

L'analogia: È come se avessi un libro di testo antico, l'avessi pulito dalla polvere e dai graffiti, e poi lo avessi passato a un professore di letteratura giapponese. Il professore guarda la lettera pulita e dice: "Questa è la lettera 'A' in stile antico, che oggi scriviamo come 'A' moderna".
Risultato: Il sistema converte il carattere antico in un carattere giapponese moderno che chiunque può leggere.

Perché è importante?

Il risultato finale è un documento antico dove, sopra le parole originali, vengono sovrapposte le traduzioni moderne. È come se avessi un sottotitolo in tempo reale su un film muto del 1600.

Gli esperimenti hanno mostrato che questo metodo funziona benissimo:

Senza il "restauro" (il passaggio 2), il computer sbaglia circa il 6% delle volte quando c'è un timbro rosso.
Con il "restauro", l'accuratezza sale quasi al 95%.

In Sintesi

Questo lavoro è come dare agli storici e ai curiosi di oggi gli occhiali da supereroe per leggere la storia. Trasforma un documento illeggibile, coperto di timbri rossi e inchiostro sbiadito, in un testo chiaro e comprensibile, permettendoci di ascoltare finalmente le voci del passato senza il rumore di fondo dei sigilli.

È un perfetto esempio di come la tecnologia non debba solo "calcolare", ma anche "capire" e "riparare" per farci connettere con la nostra storia.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Framework di Riconoscimento dei Caratteri Kuzushiji Guidato dal Restauro sotto Interferenza di Sigilli

1. Il Problema

Il Kuzushiji è uno stile di scrittura corsiva storica giapponese, ampiamente utilizzato nei documenti pre-moderni (prima della Restaurazione Meiji) per lettere personali, documenti ufficiali e opere letterarie. Sebbene basato sugli stessi caratteri del giapponese moderno (kanji e kana), le sue forme altamente stilizzate e le numerose varianti lo rendono illeggibile per la maggior parte dei lettori giapponesi contemporanei.

Sebbene esistano sistemi OCR avanzati (come Fuminoha, NDLkotenOCR e Metom) che ottengono buoni risultati su documenti puliti, essi falliscono significativamente quando i documenti sono soggetti a interferenza da sigilli. Nei documenti storici giapponesi, i sigilli (spesso rossi) vengono apposti frequentemente per indicare proprietà o autenticità. Quando questi sigilli sovrapposti ai caratteri Kuzushiji, oscurano o distorcono le forme dei glifi, degradando drasticamente l'accuratezza del riconoscimento. I sistemi attuali non affrontano esplicitamente questo problema specifico.

2. Metodologia Proposta: RG-KCR

Gli autori propongono un framework a tre stadi chiamato RG-KCR (Restoration-Guided Kuzushiji Character Recognition), progettato specificamente per mitigare l'interferenza dei sigilli. Il flusso di lavoro è il seguente:

Stadio 1: Rilevamento dei Caratteri (Character Detection)
- Viene utilizzato un modello di object detection basato su YOLOv12-medium per identificare le singole istanze di caratteri Kuzushiji.
- A differenza di approcci precedenti che rilevano intere righe di testo (che possono generare box duplicati in layout complessi), questo stadio opera a livello di singolo carattere.
- È stato dimostrato che il rilevamento è robusto anche con sigilli sovrapposti, quindi il restauro non viene applicato prima di questa fase.
Stadio 2: Restauro del Documento (Document Restoration)
- Questo è il nucleo innovativo del framework. Viene proposto un algoritmo di rimozione dei sigilli senza training (training-free) ed efficiente.
- Principio: Sfrutta il fatto che i sigilli sono tipicamente in inchiostro rosso. L'algoritmo identifica le regioni dei sigilli basandosi su una soglia di intensità del canale rosso rispetto ai canali verde e blu ( $R \ge \tau_r \land R \ge \tau_{rg} \cdot G \land R \ge \tau_{rb} \cdot B$ ).
- Processo: Una volta generata una maschera binaria delle aree dei sigilli, queste vengono rimosse tramite inpainting (utilizzando il metodo di Telea o l'approccio basato su Navier-Stokes) per ricostruire le parti del testo nascoste propagando le texture circostanti.
- La maschera viene ulteriormente raffinata con dilatazione morfologica per compensare il "bleeding" del colore dell'inchiostro.
Stadio 3: Classificazione dei Caratteri (Character Classification)
- Le regioni dei caratteri vengono ritagliate dal documento restaurato (Stadio 2) utilizzando le coordinate dei box rilevati nello Stadio 1.
- I ritagli vengono classificati utilizzando Metom, un modello basato su Vision Transformer (ViT) capace di riconoscere oltre un milione di classi di caratteri.
- I risultati (codici Unicode) vengono mappati ai caratteri giapponesi moderni e sovrapposti al documento originale per una visualizzazione intuitiva.

3. Contributi Chiave

Framework RG-KCR: Un nuovo approccio a tre stadi che integra il restauro del documento direttamente nel processo di riconoscimento per gestire l'interferenza dei sigilli.
Algoritmo di Restauro Efficiente: Un metodo di rimozione dei sigilli basato sul colore, privo di training (non richiede dataset annotati per il restauro), computazionalmente leggero e in grado di ridurre gli artefatti nelle regioni oscurate.
Dataset Personalizzati:
- Un dataset per il rilevamento composto da 1.000 immagini di documenti sintetici, creati sovrapponendo digitalmente sigilli reali a documenti Kuzushiji originali (CODH), con annotazioni verificate e corrette manualmente.
- Un set di test per la classificazione con 17.982 istanze di caratteri da 100 documenti contenenti sigilli sintetici.
Validazione Sperimentale: Uno studio di ablazione che dimostra l'impatto positivo dello stadio di restauro sulle prestazioni del classificatore.

4. Risultati Sperimentali

Rilevamento (Stadio 1): Il modello YOLOv12-medium ha raggiunto prestazioni eccellenti sul dataset costruito, con una Precisione del 98,0% e un Recall del 93,9%, superando altri modelli YOLO recenti e RT-DETR.
Restauro (Stadio 2): La configurazione ottimale dei parametri ( $\tau_r=90$ , $\tau_{rg}=\tau_{rb}=1.3$ ) ha prodotto un PSNR di 34,13 dB e un SSIM di 0,9750 sul set di test, indicando un'alta fedeltà nella ricostruzione delle aree danneggiate.
Classificazione (Stadio 3): Lo studio di ablazione ha mostrato che l'aggiunta dello stadio di restauro ha migliorato l'accuratezza Top-1 del classificatore Metom dal 93,45% (senza restauro) al 95,33% (con restauro). L'aumento del tempo di elaborazione è stato minimo (circa 0,51 secondi per immagine).
Qualità Visiva: I risultati qualitativi mostrano che il framework riesce a rimuovere efficacemente gli artefatti dei sigilli, migliorando la chiarezza strutturale del testo e permettendo una lettura più intuitiva.

5. Significato e Impatto

Questo lavoro è significativo perché affronta una limitazione critica nei sistemi OCR per documenti storici: l'interferenza fisica dei sigilli, un problema onnipresente ma spesso ignorato.

Accessibilità: Migliora l'accessibilità dei documenti storici giapponesi per i ricercatori e il pubblico generale, trasformando testi illeggibili in contenuti comprensibili.
Efficienza: L'approccio di restauro "senza training" offre una soluzione pratica e a basso costo computazionale, ideale per l'implementazione su dispositivi con risorse limitate (es. web o mobile), a differenza di modelli di deep learning pesanti per il restauro.
Fondamento per Futuri Lavori: Sebbene l'attuale framework non ricostruisca ancora l'ordine di lettura continuo (a causa della complessità dei layout storici), stabilisce una base solida per futuri sistemi di trascrizione end-to-end che integrino analisi del layout e ordinamento dei caratteri.

In sintesi, il framework RG-KCR rappresenta un passo avanti fondamentale nel campo della digitalizzazione del patrimonio culturale, dimostrando che la combinazione di rilevamento robusto e restauro guidato dai dati può superare le sfide specifiche dei documenti storici degradati.