CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

El artículo presenta CONE, un modelo híbrido preentrenado que utiliza un algoritmo de construcción de incrustaciones compuesto para codificar números, rangos y gaussianas junto con sus unidades y atributos, logrando un razonamiento numérico superior y superando a los modelos más avanzados en diversas tareas de comprensión y recuperación de datos.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de lenguaje actuales (como los que usan los asistentes virtuales o los chatbots) son como genios literarios. Pueden escribir poemas, entender chistes y analizar novelas con facilidad. Sin embargo, cuando les pides que hagan de "contadores" o "científicos", a menudo se vuelven torpes.

El problema es que estos modelos tratan a los números como si fueran simples palabras. Para ellos, el número "28" es solo una etiqueta, igual que la palabra "gato". No entienden que "28" es mayor que "15", ni que "28 años" es muy diferente a "28 kilómetros".

Aquí es donde entra CONE (el tema de este paper). Vamos a explicarlo con una analogía sencilla.

🍎 El Problema: La "Caja de Frutas" Confusa

Imagina que tienes una caja de frutas (los datos) y un robot que debe organizarlas.

  • Si le das una manzana roja y una manzana verde, el robot actual (llamémoslo "Robot Viejo") las pone juntas porque ambas son "manzanas".
  • Pero, ¿qué pasa si le das una manzana de 100 gramos y una manzana de 100 kilos?
    • El "Robot Viejo" las pone juntas porque ambas son "manzanas de 100". ¡Es un desastre! No entiende que una es una fruta real y la otra es un objeto imposible.
    • En el mundo real, esto es como confundir 28 años de edad con 28 meses de seguimiento médico. Son números iguales, pero significan cosas totalmente distintas.

💡 La Solución: CONE, el "Detective de Contexto"

CONE es un nuevo tipo de robot (un modelo de inteligencia artificial) diseñado específicamente para no cometer estos errores. En lugar de mirar solo el número, CONE construye una "Identidad Completa" para cada dato numérico.

Imagina que CONE no ve solo el número "5". Ve una tarjeta de identificación con tres partes pegadas juntas:

  1. El Nombre (El Atributo): ¿De qué estamos hablando? (Ej: "Peso", "Edad", "Dosis de medicina").
  2. El Valor (El Número): ¿Cuánto es? (Ej: "5").
  3. La Unidad (La Medida): ¿En qué escala? (Ej: "kilos", "años", "miligramos").

La Analogía de la "Ficha de Identidad":

  • Robot Viejo: Ve "5". Pone una ficha que dice "5".
  • CONE: Ve "5". Crea una ficha que dice: "5 Kilos de Peso".
    • Si luego ve "5 Años de Edad", crea otra ficha: "5 Años de Edad".
    • Aunque el número "5" es el mismo, las fichas son tan diferentes que el robot sabe que no deben ir juntas.

🛠️ ¿Cómo lo hace? (La Magia Técnica Simplificada)

El paper explica que CONE hace tres cosas inteligentes:

  1. No rompe los números: A veces, los robots antiguos cortan los números en pedazos (como si "28,600" fuera "28" y "600" por separado). CONE los mantiene enteros, como un bloque sólido.
  2. Entiende rangos y promedios: No solo entiende números sueltos. Si ves algo como "Entre 10 y 20 años" o "1302 ± 0.25 nanómetros" (un promedio con un margen de error), CONE entiende que eso es un rango o una distribución, no un número mágico. Es como si pudiera entender que "entre 10 y 20" es un concepto diferente a "exactamente 15".
  3. La "Fusión de Sabores": CONE mezcla la información del nombre, el número y la unidad en una sola "sopa" de datos (un vector de embeddings). Esto hace que, matemáticamente, "5 mg de medicina" esté muy lejos de "5 kg de comida" en su cerebro, aunque el número sea el mismo.

🏆 ¿Por qué es importante? (Los Resultados)

Los autores probaron a CONE en muchos campos: medicina, finanzas, gobierno y web. Los resultados fueron impresionantes:

  • En preguntas de matemáticas: CONE acertó mucho más que los mejores robots anteriores (mejoró su puntuación en un 9% en pruebas difíciles).
  • En la búsqueda de datos: Si buscas "pacientes con presión alta", CONE encuentra los datos correctos mucho mejor que los otros, porque entiende que "120 mmHg" (presión) no es lo mismo que "120 días" (tiempo), aunque el número sea 120.
  • Diferenciación: En un experimento, los robots antiguos confundían "Edad" con "Tiempo de seguimiento" casi al 100%. CONE logró separarlos claramente, entendiendo que son conceptos distintos.

🚀 En Resumen

Piensa en CONE como un traductor universal que no solo traduce palabras, sino que entiende la física y la lógica detrás de los números.

  • Antes: Los modelos veían números como letras sueltas.
  • Ahora (con CONE): Los modelos ven números como historias completas que incluyen qué son, cuánto son y en qué medida se miden.

Esto permite que las inteligencias artificiales sean mucho más útiles en el mundo real, donde un error de cálculo o de unidad puede significar la diferencia entre un diagnóstico médico correcto y uno fatal, o entre una inversión financiera inteligente y una pérdida total. ¡CONE les da a las máquinas el sentido común numérico que les faltaba!