Each language version is independently generated for its own context, not a direct translation.
Imagine que a língua coreana é como uma grande árvore com raízes profundas e galhos que se estendem por mais de 1.300 anos. Durante séculos, essa árvore cresceu de formas muito estranhas e fascinantes: às vezes escrevendo com caracteres chineses, às vezes misturando esses caracteres com o alfabeto coreano (Hangul), e às vezes usando sistemas secretos de anotação que só os estudiosos entendiam.
O problema é que, até agora, os cientistas de computação (os "jardineiros" que tentam ensinar computadores a entender a língua) tinham apenas um pequeno vaso com os galhos mais recentes da árvore. Eles não tinham acesso às raízes antigas ou aos galhos do meio, porque os registros históricos estavam trancados, espalhados em bibliotecas físicas ou em formatos que os computadores não conseguiam ler.
O que os autores fizeram?
Eles criaram o "Corpus Histórico Coreano Aberto". Pense nisso como uma biblioteca digital mágica e gratuita que reúne 17,7 milhões de documentos. É como se eles tivessem juntado todos os diários, jornais, leis e cartas escritos na península coreana desde o século 7 até hoje (2025) e os colocassem em uma única caixa gigante, organizada e pronta para ser usada por qualquer pessoa.
O que tem dentro dessa caixa?
- Uma viagem no tempo: O material cobre desde a era antiga até a moderna.
- Uma mistura de estilos: Não é apenas o coreano de hoje. Tem textos escritos inteiramente em chinês clássico, textos que misturam chinês e coreano, e até textos do período colonial japonês.
- O "idioma secreto" (Idu): Inclui o Idu, um sistema antigo onde usavam caracteres chineses para escrever a gramática coreana. É como se fosse um código que os antigos usavam para fazer o chinês "falar" coreano.
- A divisão da Coreia: O corpus também tem textos da Coreia do Norte, mostrando como a língua mudou de forma diferente no norte e no sul, como dois irmãos que cresceram em casas separadas e desenvolveram gírias diferentes.
O que eles descobriram ao analisar esses dados?
Usando essa "máquina do tempo" de dados, os autores fizeram três descobertas principais:
- O fim do código secreto: O uso do Idu (aquele sistema misto) cresceu até os anos 1860 e depois caiu drasticamente. Foi como se a sociedade tivesse decidido, de repente, abandonar um código complexo em favor de algo mais simples.
- A revolução do Hangul: A troca do chinês pelo Hangul (o alfabeto coreano) não foi uma mudança lenta e gradual. Foi como um apagão seguido de um novo amanhecer. Até 1890, quase tudo era escrito em chinês. Depois, em uma transformação rápida impulsionada por reformas políticas, o Hangul assumiu o controle. Em 1980, mais de 93% dos caracteres já eram Hangul.
- O abalo nos computadores: Quando os pesquisadores tentaram usar computadores modernos (que aprenderam a ler o coreano do Sul) para ler os textos da Coreia do Norte, os computadores ficaram confusos. Eles não entendiam palavras novas e escreveram de forma diferente. Foi como tentar ler um livro em inglês usando um dicionário que só conhece o inglês britânico, mas o livro está escrito em inglês americano com sotaque e palavras que você nunca viu. Os computadores erraram muito mais do que o esperado.
Por que isso é importante?
Antes, se você quisesse treinar uma Inteligência Artificial para entender a história da Coreia ou ler documentos antigos, você tinha que construir seu próprio banco de dados, o que era difícil e caro. Agora, com este corpus, qualquer pesquisador no mundo pode baixar esses dados gratuitamente.
É como se eles tivessem dado a chave do porão para todos. Isso permite que:
- Historiadores entendam melhor como a língua mudou.
- Desenvolvedores criem tradutores e assistentes de IA que não apenas entendem o coreano de hoje, mas também conseguem ler cartas de 300 anos atrás.
- A humanidade preserve e acesse sua própria história de uma forma que nunca foi possível antes.
Em resumo, este trabalho é a ponte que conecta o passado complexo e misterioso da Coreia com o futuro tecnológico, garantindo que a história não seja esquecida, mas sim lida e compreendida por máquinas e pessoas.