CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

O artigo apresenta o CONE, um modelo híbrido pré-treinado que utiliza um algoritmo inovador de embeddings compostos para codificar números, intervalos e gaussianas junto com suas unidades e atributos, preservando semântica e distância e demonstrando capacidades superiores de raciocínio numérico em diversos domínios.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um tradutor muito inteligente, capaz de entender poemas, piadas e histórias complexas. Esse é o modelo de linguagem (como o BERT ou BioBERT) que já existe hoje. Ele é ótimo com palavras.

Mas, e quando você pede para ele entender números? O problema é que esses tradutores tratam números quase como se fossem apenas mais uma palavra. Se você disser "5 quilômetros" e "5 quilos", para eles, o "5" é a mesma coisa, e a diferença entre distância e peso é apenas um detalhe pequeno que eles muitas vezes ignoram. É como se alguém dissesse: "Ah, 'cinco maçãs' e 'cinco horas' são a mesma coisa porque o número cinco é igual". Isso gera confusão.

Aqui entra o CONE (o modelo proposto neste artigo). Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: O Tradutor Cego

Imagine que você está em uma sala cheia de pessoas.

  • O Modelo Antigo (BioBERT): Ele olha para um número e vê apenas um "rótulo". Se ele vê "30" na coluna "Idade" e "30" na coluna "Temperatura", ele pensa: "São a mesma coisa!". Ele não entende que 30 anos de vida é muito diferente de 30 graus de calor. Ele é "cego" para o contexto e para a unidade de medida.
  • O Resultado: Se você perguntar "Qual é a idade média?", ele pode confundir com a temperatura média, porque os números são parecidos.

2. A Solução: O CONE (O Detetive de Números)

O CONE é como um detetive superobservador que não olha apenas para o número, mas para toda a "história" ao redor dele. Ele usa uma técnica chamada Embedding Composto (ou "Embutimento Composto").

Pense em um número não como um dígito solto, mas como um sanduíche de três camadas:

  1. O Pão de Baixo (Atributo): O que é isso? (Ex: Idade, Peso, Preço).
  2. O Recheio (Valor): O número em si. (Ex: 50).
  3. O Pão de Cima (Unidade): A medida. (Ex: Anos, Kg, Dólares).

O CONE pega essas três camadas e as "gruda" juntas em uma única representação matemática.

  • Exemplo Prático:
    • Sanduíche A: [Pão: Idade] + [Recheio: 50] + [Pão: Anos].
    • Sanduíche B: [Pão: Peso] + [Recheio: 50] + [Pão: Kg].
    • Para o CONE, esses dois sanduíches são totalmente diferentes, mesmo que o recheio (50) seja o mesmo. Ele sabe que um é sobre tempo de vida e o outro sobre massa corporal.

3. Lidando com Coisas Mais Complexas (Intervalos e Médias)

O mundo real não é só números inteiros. Às vezes temos:

  • Intervalos: "Entre 10 e 20 anos".
  • Médias com Variação: "1302 ± 0,25 nm" (como em testes de laboratório).

O CONE é inteligente o suficiente para entender que "10 a 20" é um intervalo e não apenas dois números soltos. Ele cria uma "ficha" especial para esses intervalos, preservando a ideia de que é uma faixa de valores, não um ponto fixo. É como se ele tivesse um mapa que mostra não apenas onde você está, mas também o quanto você pode se mover para os lados.

4. Por que isso é importante? (O Teste de Prova)

Os autores testaram o CONE em várias situações difíceis:

  • Perguntas de Matemática: Em um teste chamado DROP (que exige somar, contar e ordenar números em textos), o CONE acertou muito mais do que os modelos antigos. Foi como se ele tivesse aprendido a fazer contas de verdade, e não apenas adivinhado.
  • Organização de Arquivos: Imagine que você tem milhares de tabelas de hospitais, finanças e governo misturadas. O CONE consegue separar "Gastos com remédios" de "Gastos com salários" mesmo que os números sejam parecidos, porque ele entende a "unidade" e o "nome da coluna".
  • Recuperação de Dados: Se você procurar por "doenças cardíacas", o CONE traz os dados certos, sem misturar com dados de "batimentos cardíacos" que são apenas números soltos.

Resumo da Ópera

O CONE é um novo tipo de "cérebro" para computadores que aprendeu a não tratar números como palavras comuns. Ele entende que 5 metros não é a mesma coisa que 5 segundos, e que 50 a 60 é diferente de 55.

Ele faz isso criando uma "identidade digital" única para cada número, que inclui:

  1. O que é (o nome da coisa).
  2. Quanto é (o valor).
  3. Como se mede (a unidade).

Isso permite que a Inteligência Artificial entenda dados complexos de medicina, finanças e ciência com muito mais precisão, evitando erros bobos de confusão entre coisas que parecem iguais, mas são totalmente diferentes. É como dar óculos de realidade aumentada para a IA, para que ela veja o significado real por trás dos números.