CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die alles leest wat er op internet staat. Deze robot is geweldig in het begrijpen van woorden: hij weet dat "hond" en "kat" dieren zijn, en dat "lief" en "mooi" positieve woorden zijn. Maar als je hem vraagt: "Wat is het verschil tussen 10 kilo en 10 kilometer?", dan raakt hij in de war. Voor deze robot zijn het gewoon twee woorden die beginnen met een '1' en een '0'. Hij ziet niet dat het ene gewicht is en het andere afstand.

Dit is precies het probleem waar de auteurs van dit paper, CONE, tegenaan lopen. Bestaande AI-modellen zijn vaak "blind" voor de echte betekenis van getallen, vooral als die getallen een eenheid hebben (zoals euro's, graden, of milligrammen) of als ze een bereik zijn (zoals "tussen 20 en 30 jaar").

Hier is een simpele uitleg van wat ze hebben bedacht, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Robot

Stel je voor dat je een lijst hebt met gegevens over mensen.

Persoon A is 30 jaar oud.
Persoon B heeft 30 minuten gewacht.

Voor een gewone computer zijn "30 jaar" en "30 minuten" bijna hetzelfde. Ze zien alleen het getal "30". Het is alsof je twee verschillende soorten fruit (een appel en een sinaasappel) in een zak doet en ze allebei "rond" noemt. De computer vergeet dat ze van een heel ander type zijn. Dit zorgt voor fouten als de robot moet rekenen of beslissingen moet nemen op basis van data.

2. De Oplossing: CONE (De "Drie-Dimensionale" Vertaler)

De auteurs hebben een nieuw systeem bedacht, genaamd CONE. Ze noemen het een "embeddings"-model, maar je kunt het zien als een slimme vertaler die niet alleen naar het getal kijkt, maar naar het hele plaatje.

In plaats van dat het getal "30" alleen maar een getal is, maakt CONE er een drie-delige identiteitskaart van:

Het Getal: (De "30")
De Eenheid: (Is het "jaar" of "minuut"?)
De Context: (Is het "leeftijd" of "wachtijd"?)

De Metafoor van de Legoblokken:
Stel je voor dat je een getal wilt voorstellen met Legoblokken.

Een oude computer pakt één grijs blokje met daarop "30".
CONE pakt drie gekleurde blokjes en klikt ze stevig aan elkaar:
- Een blauw blokje voor het getal (30).
- Een rood blokje voor de eenheid (jaar).
- Een geel blokje voor het onderwerp (leeftijd).

Door deze blokjes aan elkaar te klikken, weet de computer: "Ah, dit is een leeftijd van 30 jaar". Als je nu "30 minuten" hebt, zijn de blokjes anders gekleurd (rood = minuut, geel = wachtijd). De computer ziet direct dat dit iets heel anders is, ook al is het getal hetzelfde.

3. Speciale Trucs voor Moeilijke Getallen

Soms zijn getallen niet alleen maar één cijfer. Soms zijn het een bereik (bijvoorbeeld: "tussen 5 en 10 jaar") of een gemiddelde met een foutmarge (bijvoorbeeld: "1302 ± 0,25").

CONE heeft speciale "gereedschapskisten" voor deze gevallen:

Voor bereiken: In plaats van het hele getal "5-10" als één rommelig woord te zien, splitst CONE het op in het midden (7,5) en de grootte van het gat (5). Zo begrijpt de robot dat "5-10" en "6-11" heel dicht bij elkaar liggen, maar "5-10" en "20-25" ver uit elkaar.
Voor onzekerheid: Als er staat "1302 ± 0,25", ziet CONE dit als een centrale waarde met een kleine "wankelende rand". De robot leert dat dit een heel precieze meting is, en niet zomaar een willekeurig getal.

4. Waarom is dit zo belangrijk?

In de echte wereld zitten we vol met tabellen: medische dossiers (bloeddruk, cholesterol), financiële rapporten (euro's, procenten) en overheidsdata. Als een AI deze data niet goed begrijpt, kan het gevaarlijk of dom zijn.

Voorbeeld: Als een arts een AI vraagt om patiënten te vergelijken, wil hij niet dat de AI denkt dat iemand met een tumor van 5 cm hetzelfde is als iemand met een bloedverlies van 5 ml. Voor een oude AI waren het beide "5". Voor CONE is het een groot verschil, omdat de eenheid en het onderwerp anders zijn.

5. De Resultaten: De Robot wordt Slimmer

De auteurs hebben hun nieuwe robot (CONE) getest op enorme hoeveelheden data uit de medische wereld, financiën en het internet.

De test: Ze gaven de robot vragen die rekenen vereisten (zoals in de populaire test "DROP").
Het resultaat: CONE scoorde veel beter dan alle andere slimme modellen. Het maakte minder fouten en kon veel beter onderscheid maken tussen "5 kilo" en "5 meter".

Conclusie

Kortom: CONE is een manier om computers te leren dat getallen niet alleen cijfers zijn, maar verhalen met een eenheid en een context. Het is alsof je een kind leert dat "5" niet alleen een getal is, maar dat "5 appels" iets heel anders is dan "5 kilometer". Door deze nuance toe te voegen, wordt de AI veel slimmer, veiliger en nuttiger voor het analyseren van complexe data.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics" in het Nederlands.

Probleemstelling

Grote taalmodellen (LLMs) en voorgeïmplementeerde taalmodellen (LMs) presteren uitstekend in het begrijpen van taalkundige semantiek en contextuele relaties. Ze kampen echter met aanzienlijke beperkingen bij taken die betrekking hebben op numerieke data.

Tokenisatie-problemen: Bestaande modellen (zoals BERT) behandelen getallen vaak als gewone woorden en splitsen ze op in subwoorden (bijv. "28,600" wordt "28" en "-600"). Dit vervormt de oorspronkelijke semantiek en verstoort de numerieke orde.
Gebrek aan context: Modellen onderscheiden vaak niet tussen getallen met verschillende eenheden of attributen. Bijvoorbeeld, "50" in de context van "Leeftijd (jaren)" en "50" in "Gewicht (kg)" worden vaak als semantisch identiek behandeld, hoewel ze fundamenteel verschillende betekenissen hebben.
Complexiteit: Bestaande embeddings kunnen complexe numerieke structuren zoals intervallen (ranges, bijv. "10-20") en Gaussische verdelingen (bijv. "1302 ± 0.25") niet correct coderen zonder hun semantische eigenschappen (zoals afstand en spreiding) te verliezen.

Methodologie: Het CONE-model

CONE (Context-aware Numerical Embeddings) is een hybride transformer-encoder die is ontworpen om numerieke waarden, eenheden en attributen gezamenlijk te coderen in een vectorruimte die numerieke afstanden behoudt.

1. Architectuur en Encoder:

Het model is gebaseerd op een voorgeïmplementeerde transformer (bijv. BioBERT).
In plaats van de standaard tokenisatie voor cijfers te gebruiken, behandelt CONE elk numeriek token als één eenheid.
Het model voegt een numerieke fusie-mechanisme toe: het combineert de contextuele embedding van de transformer ( $M_E$ ) met gespecialiseerde numerieke waarde-embeddings ( $M_N$ , afgeleid van methoden zoals DICE) via elementsgewijze sommatie.
Deze gefuseerde representatie wordt verwerkt door een extra transformer-blok voor numeriek specifiek redeneren.

2. Composite Embedding Structuur:
Het kerninnovatiepunt is de constructie van een samengestelde embedding (composite embedding) die drie componenten concateneert:

Attribuut: De kolomnaam (bijv. "Bloedverlies").
Waarde: De numerieke waarde (scalars, intervallen of Gaussians).
Eenheid: De meeteenheid (bijv. "mL").

Voor complexe waarden worden specifieke transformaties toegepast:

Intervallen (Ranges): Worden gecodeerd als het centrum ( $\frac{a+b}{2}$ ) en de lengte ( $|b-a|$ ) van het interval.
Gaussians: Worden opgesplitst in componenten zoals "mean - SD", "mean", en "mean + SD".

Deze componenten worden in vaste "slots" geplaatst (met zero-padding voor ontbrekende componenten) en vervolgens geprojecteerd naar een eindige vectorruimte via een lineaire auto-encoder. Dit zorgt ervoor dat de vectorafstand de numerieke nabijheid en semantische overeenkomst weerspiegelt.

3. Training:
Het model wordt getraind met een gemaskerde numerieke voorspelling (Masked Numeral Prediction). De loss-functie combineert regressie (voor het voorspellen van de numerieke grootte) en classificatie (voor het voorspellen van de token-klasse), wat het model dwingt om zowel de context als de kwantitatieve waarde te begrijpen.

Belangrijkste Bijdragen

Nieuwe Composite Embedding Structuur: Een methode die numerieke waarden, eenheden en attributen gezamenlijk codeert, waardoor polysemie (bijv. "5" als leeftijd vs. "5" als gewicht) correct wordt opgelost.
Specialisatie voor Complex Data: Specifieke embeddings voor numerieke intervallen en Gaussische verdelingen die hun semantische eigenschappen (centrum, spreiding) behouden.
Nieuwe Algoritmen: Twee algoritmen voor het vooraf berekenen van embedding-componenten en het samenstellen van de volledige vector.
Uitgebreide Evaluatie: Een grondige evaluatie op grote datasets uit diverse domeinen (medisch, financieel, overheid, web).

Resultaten

CONE werd getest op verschillende benchmarks en presteerde significant beter dan state-of-the-art (SOTA) baselines zoals NumNet, NC-BERT, TAPAS en algemene embedding-modellen (zoals BGE-M3, Stella).

Numeriek Redeneren (DROP Dataset):
- CONE behaalde een F1-score van 87,28% op de DROP-benchmark (vragen die numeriek redeneren vereisen).
- Dit is een verbetering van 9,37% ten opzichte van de beste bestaande baselines.
- Het model toonde superieure prestaties in taken zoals het vinden van het maximum in een lijst, decoderen van getallen en optellen.
Kolom- en Tupel-Matching (Schema Matching):
- Op grote datasets (CancerKG, WebTables, CIUS, SAUS) overtrof CONE alle concurrenten in Recall@10, MAP@10 en MRR@10.
- Er werd een verbetering van 25% in Recall@10 waargenomen ten opzichte van NumNet op de WebTables-dataset.
- Het model slaagde erin om semantisch verschillende kolommen (bijv. "Leeftijd" vs. "Follow-up") correct te onderscheiden, terwijl standaardmodellen deze vaak als identiek beschouwden (cosine-similariteit daalde van 0,99 naar 0,83 voor deze paren, wat een betere scheiding aangeeft).
Ablatie-studies:
- Het verwijderen van de numerieke module, de eenheidscomponent of de samengestelde structuur leidde tot een significante daling in prestaties, wat aantoont dat elk onderdeel essentieel is voor het behoud van semantiek.

Betekenis en Impact

Dit paper lost een fundamentele beperking op in de huidige AI-land: het onvermogen van taalmodellen om numerieke data in gestructureerde tabellen correct te begrijpen.

Semantische Integriteit: Door eenheden en attributen expliciet te coderen, voorkomt CONE fouten waarbij getallen met dezelfde waarde maar verschillende betekenissen (bijv. 5 mg vs. 5 mL) als identiek worden behandeld.
Toepasbaarheid: De methode is breed toepasbaar in domeinen waar precisie cruciaal is, zoals biomedische research (kankerstudies), financiën en overheidelijke statistieken.
Efficiëntie: In tegenstelling tot sommige SOTA-methoden die grote taalmodellen (LLMs) nodig hebben voor her-ranking, biedt CONE een kostenefficiëntere oplossing die direct werkt met geëncodeerde vectoren zonder extra inferentiestappen.

Samenvattend introduceert CONE een nieuwe standaard voor het vertegenwoordigen van numerieke data in embedding-ruimten, waarbij het niet alleen de waarde, maar ook de context (attribuut) en de schaal (eenheid) integraal verwerkt.

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

1. Het Probleem: De "Blinde" Robot

2. De Oplossing: CONE (De "Drie-Dimensionale" Vertaler)

3. Speciale Trucs voor Moeilijke Getallen

4. Waarom is dit zo belangrijk?

5. De Resultaten: De Robot wordt Slimmer

Conclusie

Probleemstelling

Methodologie: Het CONE-model

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Online Monitoring of Metric Temporal Logic using Sequential Networks

Module checking of pushdown multi-agent systems

Probabilistic Counters for Privacy Preserving Data Aggregation

Homomorphisms of (n,m)-graphs with respect to generalised switch

Agent based decision making for Integrated Air Defense system