ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

DatologyAI, :, Aldo Gael Carranza, Kaleigh Mentzer, Ricardo Pio Monti, Alex Fang, Alvin Deng, Amro Abbas, Anshuman Suri, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Haakon Mongstad, Haoli Yin, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Luke Merrick, Maximilian Böther, Parth Doshi, Paul Burstein, Pratyush Maini, Rishabh Adiga, Siddharth Joshi, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

Publicado 2026-02-27

📖 4 min de lectura☕ Lectura para el café

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el mundo de la Inteligencia Artificial (IA) es como una biblioteca gigante donde se guardan todos los conocimientos del universo. Durante mucho tiempo, esta biblioteca tenía un problema grave: los estantes estaban llenos de libros en inglés, pero los estantes de otros idiomas (como el español, el hindi o el árabe) estaban casi vacíos, llenos de papeles arrugados, mal escritos o simplemente desordenados.

Los científicos creían que para que una IA fuera inteligente en muchos idiomas, necesitaba ser gigantesca (con más "cerebro" o parámetros) y consumir una cantidad de energía (computación) enorme. Llamaban a esto la "maldición del multilingüismo": pensaban que si la IA aprendía muchos idiomas a la vez, se confundía y se volvía menos inteligente en todos ellos.

Pero el equipo de DatologyAI en su nuevo trabajo, "UberWeb", descubrió algo revolucionario: El problema no era el tamaño de la IA, sino la basura en los libros.

Aquí te explico sus hallazgos con analogías sencillas:

1. La analogía del Chef y los Ingredientes

Imagina que quieres cocinar un banquete para 13 culturas diferentes.

El enfoque antiguo: Comprabas toneladas de ingredientes baratos y de mala calidad para todos, y luego le decías al chef (la IA): "¡Cocina rápido y usa todo!". El resultado era un plato mediocre para todos.
El enfoque de DatologyAI: En lugar de comprar más ingredientes, seleccionaron los mejores.
- Si quieres que el chef entienda el español, no necesitas más libros en inglés; necesitas traducir los mejores libros de inglés (los más claros y bien escritos) al español, en lugar de traducir cualquier cosa que encuentres.
- Descubrieron que si limpias y seleccionas bien los ingredientes en inglés, la IA mejora automáticamente en otros idiomas. ¡Es como si limpiar la cocina ayudara a cocinar mejor en cualquier idioma!

2. El "Efecto Dominó" (Transferencia Cruzada)

Hicieron un experimento interesante:

Si mejoraron solo la calidad de los datos en inglés, la IA mejoró en 12 de los 13 idiomas que probaron.
Si mejoraron los datos en otros idiomas, la IA también se volvió más inteligente en inglés.

La analogía: Imagina que la IA es un equipo de fútbol. Si entrenas al delantero (inglés) con ejercicios de alta calidad, todo el equipo (los otros idiomas) juega mejor porque aprenden tácticas y disciplina. No es una competencia donde uno gana y el otro pierde; es un círculo virtuoso. Mejorar un idioma ayuda a todos los demás.

3. No sirve una receta única para todos

Aunque limpiar los datos en inglés ayuda mucho, no es la solución mágica para todo.

La analogía: No puedes cocinar un taco usando exactamente la misma receta que un sushi, aunque ambos sean comida.
Descubrieron que cada idioma necesita su propia "receta de limpieza" (curación). El español tiene sus propias reglas, el chino tiene otras, y el hindi tiene las suyas. Si tratas a todos los idiomas igual, no obtienes el máximo rendimiento. Al crear una curación personalizada para cada uno, lograron mejoras enormes (hasta un 17% más de inteligencia).

4. La Traducción: Calidad sobre Cantidad

Muchos pensaban que traducir millones de textos de inglés a otros idiomas era la solución rápida.

El hallazgo: Traducir "basura" (textos mal escritos o aleatorios) sigue siendo basura, incluso si está en otro idioma.
La solución: Traducir solo los textos de alta calidad (los que ya fueron filtrados y seleccionados) funciona mucho mejor. Es como decir: "Es mejor tener un libro de cocina perfecto traducido, que tener mil recetas mal escritas traducidas".

5. El Resultado: Hacer más con menos (Eficiencia)

Este es el punto más impresionante.

Usaron un corpus de datos de 20 billones de tokens (una cantidad astronómica de información), pero solo usaron el 8% de ese total para los idiomas no ingleses.
La analogía: Imagina que tienes que llenar un tanque de agua gigante. Otros equipos usan mangueras gigantes que gastan mucha energía. DatologyAI usó una manguera de alta presión y agua purificada.
El resultado: Sus modelos pequeños (de 3 mil millones o 8 mil millones de "neuronas") fueron 4 a 10 veces más eficientes que los modelos gigantes de otras empresas. Lograron ser tan inteligentes en muchos idiomas usando mucha menos electricidad y tiempo de entrenamiento.

En resumen

El mensaje principal del paper es: Dejar de obsesionarse con hacer IAs más grandes y empezar a obsesionarse con hacer los datos más limpios y bien seleccionados.

La "maldición del multilingüismo" no es real; es solo un problema de mala organización de la biblioteca. Si organizas bien los libros (curación de datos), una IA pequeña puede entender y hablar el mundo entero con una eficiencia increíble, haciendo que el futuro de la IA sea más inclusivo y menos costoso para todos.

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. La analogía del Chef y los Ingredientes

2. El "Efecto Dominó" (Transferencia Cruzada)

3. No sirve una receta única para todos

4. La Traducción: Calidad sobre Cantidad

5. El Resultado: Hacer más con menos (Eficiencia)

En resumen

Resumen Técnico: UberWeb

1. El Problema: La Desigualdad de Datos y la "Maldición del Multilingüismo"

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. La analogía del Chef y los Ingredientes

2. El "Efecto Dominó" (Transferencia Cruzada)

3. No sirve una receta única para todos

4. La Traducción: Calidad sobre Cantidad

5. El Resultado: Hacer más con menos (Eficiencia)

En resumen

Resumen Técnico: UberWeb

1. El Problema: La Desigualdad de Datos y la "Maldición del Multilingüismo"

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank