The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

A Meta FAIR apresenta o conjunto de dados Open Molecules 2025 (OMol25), uma coleção abrangente de mais de 100 milhões de cálculos de teoria do funcional da densidade (DFT) que combina diversidade química e precisão para impulsionar o desenvolvimento de modelos de aprendizado de máquina na química molecular.

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar o prato perfeito. Para isso, você precisa testar milhões de combinações de ingredientes, temperaturas e tempos de cozimento. No mundo da química, os "ingredientes" são átomos e as "receitas" são moléculas. O problema é que testar tudo isso na vida real é caro, lento e perigoso.

Por décadas, os cientistas usaram uma ferramenta chamada DFT (Teoria do Funcional da Densidade) para simular essas receitas no computador. É como ter uma calculadora superprecisa que diz exatamente como a comida vai ficar. Mas essa calculadora é tão lenta que, para simular uma molécula grande, ela pode demorar dias ou semanas. É como tentar assar um bolo usando uma calculadora de bolso: funciona, mas é ineficiente.

Aqui entra a Inteligência Artificial (IA). A ideia é treinar um "chef robô" (um modelo de aprendizado de máquina) para aprender a cozinhar olhando para os resultados da calculadora lenta. Se o robô aprender bem, ele pode prever o resultado de novas receitas em milissegundos, com a mesma precisão da calculadora lenta.

O problema? Para treinar esse robô, você precisa de um livro de receitas gigante. Até agora, os livros de receitas disponíveis eram pequenos, cobriam apenas ingredientes básicos (como carbono e hidrogênio) e não tinham as "temperaturas" (cargas elétricas e spins) variadas que a química real exige.

A Solução: O "Livro de Receitas" Definitivo (OMol25)

A Meta FAIR lançou o OMol25 (Open Molecules 2025), que é basicamente um livro de receitas químico com 140 milhões de entradas. É o maior e mais diverso conjunto de dados já criado para química molecular.

Aqui está o que torna o OMol25 especial, usando analogias simples:

  1. A Diversidade de Ingredientes (83 Elementos):
    Antes, os livros de receitas tinham apenas os básicos: farinha, açúcar e ovos (Carbono, Hidrogênio, Oxigênio). O OMol25 inclui 83 elementos da tabela periódica. Isso significa que o robô agora aprende a cozinhar com metais raros, sais, eletrólitos de baterias e até proteínas complexas do nosso corpo. É como se o chef aprendesse a fazer desde um sanduíche simples até um banquete de gala com ingredientes exóticos.

  2. Cenários Reais (Diversidade Química):
    O dataset não é apenas moléculas solitárias. Ele inclui:

    • Biomoléculas: Como proteínas e DNA (a "biologia" da cozinha).
    • Complexos Metálicos: Metais ligados a outras coisas (essenciais para catalisadores e energia).
    • Eletrólitos: Soluções com íons (o que acontece dentro das baterias dos seus celulares e carros elétricos).
    • Reações: O dataset mostra não apenas o prato pronto, mas o processo de como os ingredientes mudam durante o cozimento (reações químicas).
  3. O "Laboratório" Gigante:
    Criar esse dataset exigiu 6,6 bilhões de horas de processamento de CPU. Imagine que, se você colocasse todos os computadores do mundo trabalhando juntos, ainda levaria um tempo enorme. A Meta usou seus servidores ociosos para fazer isso, como se estivessem usando o tempo livre de milhões de computadores para gerar conhecimento.

O que eles fizeram com isso?

Além de soltar os dados, eles criaram modelos de referência (os "chefes robôs" iniciais) e um pódio público (leaderboard).

  • Os Modelos: Eles treinaram várias IAs (como o eSEN, GemNet-OC e UMA) com esses dados.
  • O Pódio: Eles criaram desafios específicos para testar se os robôs realmente aprenderam. Em vez de apenas perguntar "qual é a energia?", eles perguntam coisas práticas:
    • "Se eu mudar a carga elétrica, a molécula ainda se mantém?" (Teste de Ionização).
    • "Se eu afastar duas partes da molécula, a força de atração diminui corretamente?" (Teste de Escala de Distância).
    • "Consegue prever qual a melhor forma de dobrar uma proteína para ela funcionar?" (Teste de Conformação).

Por que isso importa para você?

Pense no OMol25 como a base para a próxima revolução tecnológica:

  • Medicamentos: Em vez de testar milhões de compostos em laboratório (o que leva anos), podemos simular rapidamente quais moléculas se encaixam perfeitamente em um vírus ou célula cancerígena.
  • Energia Limpa: Podemos projetar baterias novas e melhores, ou encontrar catalisadores mais eficientes para produzir hidrogênio verde, acelerando a transição energética.
  • Materiais: Descobrir novos materiais para telas de celular, painéis solares ou plásticos biodegradáveis.

Resumo da Ópera

O OMol25 é como dar a um gênio da IA um livro de receitas de 140 milhões de páginas, escrito na linguagem mais precisa da física quântica, cobrindo desde a química do seu corpo até a química das baterias do futuro.

Antes, a IA era como um aluno que só tinha visto receitas de bolo de cenoura. Agora, com o OMol25, ela tem acesso a todo o universo culinário. O resultado? Modelos que estão começando a atingir uma precisão quase perfeita (química de nível quântico) em uma fração do tempo, abrindo portas para descobertas científicas que antes eram impossíveis de calcular.

O objetivo final é que, no futuro, qualquer cientista ou engenheiro possa usar essas ferramentas para "inventar" novos materiais e remédios no computador antes mesmo de colocar a mão em um tubo de ensaio.