ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

DatologyAI, :, Aldo Gael Carranza, Kaleigh Mentzer, Ricardo Pio Monti, Alex Fang, Alvin Deng, Amro Abbas, Anshuman Suri, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Haakon Mongstad, Haoli Yin, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Luke Merrick, Maximilian Böther, Parth Doshi, Paul Burstein, Pratyush Maini, Rishabh Adiga, Siddharth Joshi, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

Publicado 2026-02-27

📖 5 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma biblioteca universal para ensinar um robô superinteligente a falar e entender o mundo. O problema é que, até agora, essa biblioteca estava cheia de livros em inglês, mas muito poucos em outras línguas, e os que existiam estavam cheios de rasuras, erros de digitação e histórias confusas.

O artigo "UberWeb: Insights from Multilingual Curation" (Insights de Curadoria Multilíngue para um Conjunto de Dados de 20 Trilhões de Tokens) da equipe DatologyAI conta a história de como eles consertaram essa biblioteca e descobriram um segredo que muda tudo: não é sobre ter mais livros, é sobre ter melhores livros.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: A "Maldição" do Multilinguismo

Antes, os cientistas achavam que ensinar um robô a falar 13 idiomas ao mesmo tempo era como tentar encher 13 balões com o mesmo ar: se você enche um, o outro murcha. Eles chamavam isso de "maldição do multilinguismo". Acreditavam que o robô tinha um "cérebro" (memória) limitado e que, ao aprender chinês, ele esquecia um pouco de espanhol.

A descoberta do artigo: Eles perceberam que o cérebro do robô não era o problema. O problema era a qualidade dos livros que estavam lendo. Se você dá a um aluno um livro de história com erros, ele vai aprender errado, não importa o quanto você estude.

2. A Solução: A Curadoria (O "Editor" de Livros)

Em vez de apenas jogar milhões de páginas da internet na máquina (o que é como jogar uma pilha de jornais velhos e rasgados na mesa), eles decidiram fazer uma curadoria.

A Analogia do Chef: Imagine que você quer fazer um banquete para 13 pessoas de culturas diferentes.
- O jeito antigo: Você pega todos os ingredientes que encontra no mercado, sem lavar, sem verificar se estão estragados, e joga na panela. O resultado é uma sopa ruim para todos.
- O jeito novo (DatologyAI): Você contrata um chef especialista para cada cultura. Ele vai ao mercado, escolhe os vegetais mais frescos, descarta os podres e prepara pratos específicos para cada um.

Eles criaram pipelines (processos) específicos para cada idioma. Para o alemão, usaram um filtro diferente do que usaram para o hindi. Eles não trataram todos os idiomas como se fossem iguais.

3. O Efeito "Bumerangue" (Aprendizado Recíproco)

Uma das descobertas mais legais foi que melhorar os livros de um idioma ajudava os outros.

Melhorar o Inglês ajuda os outros: Quando eles limparam e organizaram os textos em inglês, o robô aprendeu melhor inglês. Surpreendentemente, isso fez com que ele aprendesse melhor em espanhol, francês e chinês também. Foi como se o robô tivesse aprendido a "pensar" de forma mais clara em inglês, e essa clareza ajudou a entender as outras línguas.
Melhorar os outros ajuda o Inglês: O contrário também funcionou! Quando eles melhoraram os textos em hindi ou árabe, o robô ficou até um pouco melhor em inglês.

A lição: Dados de alta qualidade são como uma luz brilhante. Quando você ilumina um canto da sala (um idioma), a luz se espalha e ajuda a ver os outros cantos também.

4. Tradução: Cuidado com a Fonte

Eles tentaram usar tradução automática para criar mais livros. Mas descobriram uma regra de ouro: se você traduz um texto ruim, você só ganha um texto ruim traduzido.

Se você pegar um texto inglês aleatório da internet (cheio de erros) e traduzir para o hindi, o robô não aprende muito.
Se você pegar um texto inglês excelente, bem escrito e filtrado, e traduzir, o robô aprende muito mais.
O segredo final: A melhor estratégia não foi apenas traduzir, mas criar uma curadoria completa para cada idioma, como se fosse um livro original, não apenas uma cópia.

5. O Resultado: Mais Inteligência, Menos Energia

O grande feito deles foi criar um conjunto de dados gigante (20 trilhões de "pedacinhos" de texto) e treinar modelos menores (3 bilhões e 8 bilhões de parâmetros) com ele.

A Comparação: Outros modelos gigantes (como o Qwen ou o Granite) precisaram de 4 a 10 vezes mais energia computacional (eletricidade e tempo de processador) para atingir um desempenho similar.
A Metáfora: É como se dois carros fossem correr uma maratona. O carro da DatologyAI é um carro pequeno e eficiente que bebe pouca gasolina, mas corre tão rápido quanto os caminhões gigantes dos concorrentes que bebem muito combustível. Eles conseguiram fazer mais com menos, apenas porque o "motor" (os dados) era de melhor qualidade.

Resumo em uma frase

O artigo prova que para ensinar inteligência artificial a falar várias línguas, não precisamos de computadores gigantes e infinitos; precisamos de curadoria inteligente, escolhendo os melhores dados para cada idioma, o que torna o aprendizado mais rápido, mais barato e mais justo para todas as culturas do mundo.

Eles mudaram a pergunta de "Como fazemos o robô caber mais idiomas?" para "Como fazemos os idiomas que o robô já conhece serem ensinados da melhor maneira possível?". E a resposta foi: com qualidade, não com quantidade bruta.

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. O Problema: A "Maldição" do Multilinguismo

2. A Solução: A Curadoria (O "Editor" de Livros)

3. O Efeito "Bumerangue" (Aprendizado Recíproco)

4. Tradução: Cuidado com a Fonte

5. O Resultado: Mais Inteligência, Menos Energia

Resumo em uma frase

Resumo Técnico: UberWeb – Insights da Curadoria Multilíngue para um Dataset de 20 Trilhões de Tokens

1. O Problema

2. Metodologia

3. Principais Contribuições e Descobertas

4. Resultados Quantitativos

5. Significado e Impacto

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

1. O Problema: A "Maldição" do Multilinguismo

2. A Solução: A Curadoria (O "Editor" de Livros)

3. O Efeito "Bumerangue" (Aprendizado Recíproco)

4. Tradução: Cuidado com a Fonte

5. O Resultado: Mais Inteligência, Menos Energia

Resumo em uma frase

Resumo Técnico: UberWeb – Insights da Curadoria Multilíngue para um Dataset de 20 Trilhões de Tokens

1. O Problema

2. Metodologia

3. Principais Contribuições e Descobertas

4. Resultados Quantitativos

5. Significado e Impacto

Mais como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank