Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme berg krantenknipsels hebt over kunstmatige intelligentie (AI). Er zijn er bijna 12.000, allemaal in het Portugees. Als je die gewoon op een hoop gooit, krijg je een rommelige berg papier. Je ziet patronen, maar je kunt ze niet meten, niet vergelijken en zeker niet gebruiken om slimme beslissingen te nemen.

Dit artikel van Hugo Moreira is als een recept voor het verwerken van die papierberg tot een bruikbare "signaal-kaart". In plaats van te proberen de artikelen te lezen en samenvattingen te maken (wat veel tijd kost), verandert de auteur deze tekst in meetbare cijfers.

Hier is hoe dat werkt, vertaald in alledaagse taal:

1. De "Digitale DNA-Scan" (Embeddings)

Stel je voor dat elk krantenartikel een mens is. In plaats van te lezen wat ze zeggen, nemen we een foto van hun "DNA". De computer kijkt naar het hele artikel en maakt er één lange lijst met getallen van (een vector). Dit is de embeddings.

Het doel: Het artikel wordt nu een punt op een kaart. Artikelen die over hetzelfde gaan, staan dicht bij elkaar; artikelen over iets anders staan ver weg.

2. De "Magische Kompasnaald" (Logprobs)

Nu hebben we een kaart met punten, maar we weten nog niet precies waarom ze daar staan. De auteur gebruikt de AI niet om nieuwe teksten te schrijven, maar als een super-gevoelige kompasnaald.

Hij stelt de AI zes vragen (in het Portugees), zoals: "Is dit artikel meer over kansen of over risico's?" of "Is het lokaal of wereldwijd?"
De AI geeft geen lang antwoord, maar een cijfer tussen 0 en 1.
- 0 betekent: "Heel sterk aan de kant van 'Kansen'".
- 1 betekent: "Heel sterk aan de kant van 'Risico'".
Elk artikel krijgt nu zes coördinaten. Het is alsof elk artikel een ID-kaart krijgt met zes cijfers die precies beschrijven wat het inhoudt.

3. De "Schoonmaakbeurt" (Noise Reduction)

Niet elk punt op de kaart is betrouwbaar. Sommige artikelen zijn raar, dubbelzinnig of staan zo ver weg dat ze de kaart verstoren. De auteur gebruikt drie lagen filters om de "rommel" weg te halen:

De Verre Gast: Artikelen die zo ver van het centrum staan dat ze waarschijnlijk niet echt bij het onderwerp horen, worden verwijderd.
De Raarling: Artikelen die wel in een groep zitten, maar daar toch heel raar uitzien (bijvoorbeeld een artikel over AI dat plotseling over koken gaat), worden eruit gehaald.
De Eilandjes: Kleine groepjes artikelen die los van de rest staan, worden verwijderd.

Het resultaat: Je houdt een schone, stabiele kaart over met alleen de artikelen die echt bij elkaar horen.

4. De "Landkaart van de Wereld" (Visualisatie)

Nu hebben we een schone kaart met zes cijfers per artikel. Als je deze op een plattegrond tekent, zie je dat de wereld van AI-nieuws niet willekeurig is.

De artikelen over kansen zitten in het ene hoekje van de kaart.
De artikelen over risico's zitten in het andere hoekje.
Artikelen over ethiek vormen weer een ander eiland.

Wat levert dit op?

In plaats van dat een mens urenlang kranten moet lezen om te weten wat er speelt, heeft deze methode een live dashboard gemaakt:

Voor het hele pakket: Je kunt zien dat 89% van de artikelen over AI gaat over "groei en kansen" en slechts 3% over "gevaar".
Voor individuele artikelen: Je kunt direct zien of een nieuw artikel "risicovol" is of "economisch gericht".
Voor de toekomst: Je kunt deze kaart gebruiken om te voorspellen of de sfeer verandert. Wordt het nieuws over AI straks angstiger? Dan zie je de punten op de kaart naar het 'risico'-gedeelte verschuiven.

De Kernboodschap

De auteur zegt eigenlijk: "Laten we stoppen met proberen AI-tekst te laten 'praten' als een mens. Laten we het in plaats daarvan behandelen als een signaal, zoals een temperatuurmeter of een snelheidsmeter."

Door tekst om te zetten in cijfers en die cijfers te gebruiken om een kaart te maken, kunnen bedrijven en onderzoekers snel zien wat er gebeurt in de wereld van AI, zonder dat ze elke krant hoeven te lezen. Het is een manier om de essentie van duizenden verhalen te vangen in een paar meetbare getallen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel dichte embeddings (dense embeddings) effectief zijn voor het representeren van documenten, zijn ruwe vectorruimtes op zichzelf moeilijk bruikbaar in operationele omgevingen. De uitdaging ligt in het vertalen van tekst naar een operationeel signaal: semantische coördinaten binnen een corpus moeten worden geëxtraheerd, gestructureerd en uitgedrukt als continue variabelen op begrende schalen. Zonder deze transformatie moeten analisten de latente ruimte indirect interpreteren, wat de toepasbaarheid beperkt voor downstream AI-engineeringtaken zoals aggregatie, monitoring, regressie en routing op basis van drempelwaarden.

Methodologie

De auteurs presenteren een pipeline van vier fasen om tekstcorpora om te zetten in kwantitatieve semantische signalen. De studie is uitgevoerd op een corpus van 11.922 Portugese nieuwsartikelen over Kunstmatige Intelligentie (AI).

Embedding en Structuur:
- Elk nieuwsartikel wordt behandeld als één semantische eenheid (zonder chunking) en geëmbet met het Qwen2.5 8B Instruct-model, wat resulteert in 4096-dimensionale vectoren.
- De embedding-ruimte wordt gereduceerd via UMAP naar een 5D latentere presentatie voor structurele analyse en een 2D-projectie voor visualisatie. De keuze voor 5D is gebaseerd op de geschatte intrinsieke dimensionaliteit van het corpus ( $d \approx 4.11$ ).
- K-Means clustering ( $K=15$ ) wordt toegepast op de 5D-manifold om een initiële structurele partitionering te creëren.
Logprob-gebaseerde Semantische Score:
- In plaats van generatieve tekstlabels te vragen, wordt het outputruimte van het LLM direct gebruikt als een evaluator.
- Voor elk artikel worden logprob-scores berekend voor een configureerbare "positionele woordenlijst" (dictionary) met zes semantische dimensies:
  - Kans vs. Risico
  - Regulatorische druk
  - Economische dynamiek
  - Ethiek vs. Nut
  - Geopolitieke reikwijdte
  - Urgentie
- De scores worden genormaliseerd tot een continue interval $[0, 1]$ door de log-scores van tegenovergestelde polen (bijv. "Kans" vs. "Gevaar") te vergelijken via een softmax-transformatie.
Ruisreductie en Anomalie-detectie:
Om een stabiele topologie te verkrijgen, wordt een drie-staps filterproces toegepast op de 2D-projectie:
- Globale outliers: Artikelen die verder dan $1.2\sigma$ van het globale zwaartepunt (gebaseerd op HDBSCAN-kernen) liggen, worden verwijderd.
- Lokale "mavericks": Binnen elke K-Means-cluster worden punten die verder dan $1.8\sigma$ van het lokale zwaartepunt liggen, verwijderd.
- Structurele verbinding: Een graafgebaseerde benadering (geïnspireerd op SCAN) verwijdert geïsoleerde eilanden door alleen de grootste verbonden component te behouden.
Aggregatie:
De resulterende schone dataset wordt gebruikt voor zowel document-niveau positionering als corpus-niveau karakterisering via geaggregeerde profielen (kwartielverdelingen).

Belangrijkste Bijdragen

Operationalisering van "Text-as-Signal": De paper toont aan hoe tekst kan worden omgezet in continue, kwantitatieve signalen die direct bruikbaar zijn voor AI-engineering, zonder afhankelijkheid van menselijke annotatie of generatieve labels.
Hybride Architectuur: De combinatie van topologische data-analyse (UMAP, K-Means, HDBSCAN) voor structuur en LLM-logprobs voor continue semantische scoring. Dit overbrugt de kloof tussen structurele clustering en interpreteerbare semantische coördinaten.
Configureerbare Identiteitslaag: Het systeem is niet vastgezet op een universeel schema; de semantische woordenlijst kan worden aangepast aan de specifieke behoeften van verschillende analytische stromen.
Robuuste Ruisreductie: Een gestructureerde aanpak om topologische instabiliteit en semantische ruis te verwijderen, wat leidt tot een betrouwbaarder corpus voor analyse.

Resultaten

Corpus-analyse: Op het gezuiverde corpus van ~9.357 artikelen (na verwijdering van ~21,5% ruis) toont de analyse dat de Portugese AI-nieuwsdekking sterk geconcentreerd is rond kansen, economische groei en een gebalanceerde ethiek, met weinig extremen in risico of crisis.
Structuur en Semantiek: De logprob-gebaseerde polen corresponderen met duidelijke, gelokaliseerde ruimtelijke regio's in de manifold. Dit betekent dat de semantische dimensies niet slechts decoratieve overlays zijn, maar fundamentele structurele patronen in het corpus weerspiegelen.
Centrale Kwaliteit: De "semantische centraliteit" (hoe sterk een artikel over AI gaat) toont een duidelijke piek in het hogere scoregebied, wat de kwaliteit van de initiële filtering bevestigt. De verwijderde outliers bleken niet alleen lage-centrale items te zijn, maar topologisch instabiele documenten verspreid over het hele spectrum.

Betekenis en Toekomstperspectief

De paper positioneert semantische mapping niet als een louter visuele oefening, maar als een concrete capability binnen moderne AI-data-pipelines.

Praktische Toepassing: Het systeem ondersteunt taken zoals corpusinspectie, automatische monitoring, anomaliedetectie en downstream analytische ondersteuning.
Scalabiliteit: Omdat de identiteitslaag configureerbaar is, kan het framework worden toegepast op verschillende domeinen en analytische vragen.
Toekomstige Richtingen: De auteurs suggereren het indexeren van profielen in de tijd om temporale drift te analyseren, het gebruik van deze profielen als voorspellende variabelen in leermodellen, en het heronderzoeken van de "verwijderde" ruis voor het detecteren van zwakke signalen of uitzonderlijke gevallen.

Kortom, de paper levert een bewezen, operationele workflow die ongestructureerde tekst transformeert in gestructureerde, kwantitatieve data die direct inzetbaar is voor data-gedreven besluitvorming.

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

1. De "Digitale DNA-Scan" (Embeddings)

2. De "Magische Kompasnaald" (Logprobs)

3. De "Schoonmaakbeurt" (Noise Reduction)

4. De "Landkaart van de Wereld" (Visualisatie)

Wat levert dit op?

De Kernboodschap

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation