SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

El artículo presenta SiDiaC-v.2.0, el corpus diacrónico en idioma cingalés más grande y exhaustivo hasta la fecha, que abarca desde el siglo V hasta el XX con 244.000 palabras de 185 obras literarias, ofreciendo un recurso fundamental para el procesamiento del lenguaje natural en esta lengua de bajos recursos.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el idioma sinhala (el idioma principal de Sri Lanka) es como un gran árbol antiguo que ha estado creciendo durante siglos. Sus ramas son las diferentes épocas, sus hojas son las palabras y sus frutos son las historias.

El problema es que, para estudiar cómo ha crecido este árbol a lo largo del tiempo, los investigadores necesitaban un "herbario" perfecto: una colección de hojas (textos) de todas las épocas, limpias, ordenadas y etiquetadas. Hasta ahora, tenían un herbario pequeño y un poco desordenado (la versión 1.0).

Este paper presenta SiDiaC-v.2.0, que es como una nueva biblioteca mágica y gigante construida específicamente para entender la historia del idioma sinhala.

Aquí te explico los puntos clave usando analogías sencillas:

1. ¿Qué es exactamente este proyecto?

Es la colección de textos históricos más grande que se ha hecho nunca en sinhala.

  • El rango de tiempo: No solo mira textos de ayer. Recoge libros desde el año 1800 hasta 1955 (cuando se publicaron) y, lo más importante, rastrea cuándo se escribieron realmente, abarcando desde el siglo V hasta el siglo XX.
  • La magnitud: Imagina una biblioteca con 185 libros que contienen más de 240,000 palabras. Es como pasar de tener una pequeña caja de lápices a tener un almacén entero de ellos.

2. ¿Por qué hicieron una nueva versión (v.2.0)?

La versión anterior (v.1.0) era un buen comienzo, pero tenía algunos "defectos de fábrica", como si hubieras comprado un mueble montado pero con algunas piezas sueltas:

  • El "ruido" de la máquina: Usaron una máquina (OCR) para leer libros viejos y escaneados. A veces, la máquina confundía una letra con otra (como leer una "o" como un "0"). En la versión 2.0, los humanos revisaron palabra por palabra para corregir estos errores, como un editor de texto muy minucioso.
  • Mezcla de idiomas: Algunos libros viejos mezclaban sinhala con pali (lengua religiosa), sánscrito o inglés. La nueva versión "limpia" estos textos para que solo quede el sinhala puro, como filtrar el agua para beber solo lo que es esencial.
  • El problema de los "comentarios": Algunos libros son como un pastel: tienen la receta original (el texto antiguo) y encima una capa de crema (comentarios escritos siglos después). La versión anterior a veces confundía las fechas. La nueva versión separa mejor estas capas para saber exactamente de qué época es cada parte.
  • La poesía rota: En la poesía sinhala antigua, las palabras a veces se cortaban para rimar. La nueva versión usa una "etiqueta especial" (un token <psi>) para marcar dónde se cortó la palabra, así los ordenadores no se confunden, pero los humanos pueden ver la belleza original.

3. ¿Cómo lo hicieron? (El proceso de limpieza)

Imagina que tienes una pila de 233 libros viejos y polvorientos.

  1. Filtrado: Primero, tiraron los que no eran de Sri Lanka o que tenían derechos de autor vigentes (como no poder tocar un libro que aún está en una caja fuerte).
  2. Digitalización: Escanearon los libros restantes usando una IA muy inteligente (Google Document AI) que es experta en leer letras antiguas y difíciles.
  3. La limpieza manual: Aquí es donde entra el trabajo humano. Un equipo de expertos revisó cada página para arreglar márgenes, quitar números de página que estorbaban y corregir las letras que la máquina había leído mal.
  4. Etiquetado: Cada libro recibió una "tarjeta de identificación" (metadatos) que dice: ¿Quién lo escribió? ¿Cuándo? ¿De qué trata? (Religión, poesía, medicina, historia).

4. ¿Qué descubrieron con esta nueva biblioteca?

Al tener todos estos datos ordenados, los investigadores pudieron hacer un "análisis de tiempo" (como una máquina del tiempo lingüística):

  • Palabras con múltiples caras: Tomaron palabras comunes como "sathara" (que puede significar "cuatro", "habilidades" o "ladrón") y "maha" (que puede ser "grande", "sagrado" o "poderoso").
  • El resultado: Vieron cómo el significado de estas palabras cambió con los siglos. Por ejemplo, la palabra "maha" (grande/sagrado) era muy usada en contextos religiosos en los siglos 13 y 14, pero luego desapareció un poco, para volver a subir en el siglo 20 con un sentido más de "poder" y "fuerza". Es como ver cómo cambia la moda de las palabras a través de los siglos.

En resumen

SiDiaC-v.2.0 es como haber construido un laboratorio de arqueología digital para el idioma sinhala. Antes, los investigadores tenían que excavar con las manos y a veces se perdían piezas. Ahora, tienen un mapa detallado, herramientas de precisión y una colección limpia que les permite ver cómo ha evolucionado el pensamiento y la cultura de Sri Lanka a través de sus palabras, desde la antigüedad hasta la era moderna.

Es una herramienta fundamental para que las computadoras entiendan mejor este idioma (que es "poco recurso" en el mundo digital) y para que los historiadores puedan contar la historia con mucha más precisión.