Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Each language version is independently generated for its own context, not a direct translation.

📰 Le Titre : Transformer les Mots en "Signaux" Mesurables

Imaginez que vous avez une bibliothèque immense remplie de 12 000 journaux différents parlant d'intelligence artificielle. Le problème ? C'est un chaos de mots. Comment savoir, d'un coup d'œil, si un article parle d'opportunités économiques, de dangers éthiques ou de régulations gouvernementales ?

Hugo Moreira, l'auteur de ce papier, propose une méthode géniale pour transformer ces mots en signaux (comme des ondes radio ou des données chiffrées) que les ordinateurs peuvent comprendre et utiliser directement, sans avoir besoin d'un humain pour lire chaque article.

🛠️ Comment ça marche ? (L'Analogie du "GPS Sémantique")

Pour faire simple, l'auteur a créé un pipeline (une chaîne de montage) en quatre étapes, que l'on peut comparer à la création d'une carte géographique ultra-précise.

1. Le Moteur de Cartographie (Les "Embeddings")

Imaginez que chaque article de presse est une ville. Au lieu de lire le texte, on utilise une machine très intelligente (un modèle d'IA appelé Qwen) pour créer une "carte d'identité" mathématique pour chaque ville.

L'analogie : C'est comme si on donnait à chaque ville des coordonnées GPS (latitude/longitude) basées sur son contenu. Une ville qui parle de "dangers" sera géographiquement proche d'une autre qui parle de "crises", et loin d'une ville qui parle de "bonnes nouvelles".

2. Le Réducteur de Bruit (UMAP et le "Nettoyage")

La carte initiale est trop encombrée. Il y a des villages isolés, des îles perdues et des zones brumeuses où rien n'a de sens.

L'analogie : C'est comme si vous preniez une photo de foule floue et que vous utilisiez un logiciel pour :
1. Rapprocher les gens qui se ressemblent (réduire la carte en 2D).
2. Chasser les intrus : On enlève les personnes qui ne sont nulle part (les "outliers" ou anomalies). Si un article est trop bizarre ou hors sujet, on l'ôte de la carte principale pour ne garder que le "cœur" de la discussion.
  Résultat : Une carte propre avec des quartiers bien définis.

3. Le Système de Notation (Les "Logprobs")

C'est ici que la magie opère. Au lieu de demander à l'IA d'écrire un résumé (ce qui prend du temps et peut être imprécis), on lui demande de noter chaque article sur une échelle de 0 à 1 pour six thèmes précis.

Les 6 thèmes (la "Boussole") :
1. Opportunité vs Danger (Est-ce que c'est une bonne nouvelle ou une menace ?)
2. Régulation (Est-ce qu'on parle de lois strictes ou de liberté ?)
3. Économie (Est-ce un projet de niche ou un moteur économique ?)
4. Éthique vs Efficacité (On se soucie des humains ou juste de la vitesse ?)
5. Géopolitique (Est-ce local ou mondial ?)
6. Urgence (Est-ce une analyse calme ou une alarme ?)
L'analogie : Imaginez que chaque article reçoit un badge de couleur sur sa carte d'identité. Si un article parle beaucoup de "danger", son badge "Opportunité vs Danger" sera rouge foncé (proche de 1). S'il parle de "chance", il sera vert (proche de 0).

4. La Carte Finale (La "Topographie")

Une fois tout cela combiné, on obtient une carte visuelle où l'on peut voir :

Où se trouvent les articles "positifs" et "négatifs".
Si le corpus entier (tous les articles) penche vers l'optimisme ou le pessimisme.
Quels articles sont des "rebels" (anormaux) par rapport à la norme.

🇵🇹 L'Expérience Réelle : Les Actualités Portugaises

L'auteur a testé cette méthode sur 11 922 articles portugais parlant d'IA entre 2022 et 2024.

Ce qu'ils ont découvert : La plupart des articles parlent d'opportunités économiques et d'une approche équilibrée (ni trop effrayante, ni trop naïve).
Le résultat : Ils ont pu dire : "Regardez, 89% de nos articles sont orientés vers la croissance, mais seulement 3% parlent de danger critique." C'est une information chiffrée, immédiate, sans avoir lu un seul mot.

💡 Pourquoi c'est important ? (Le "Pourquoi" en langage simple)

Avant, pour analyser des milliers d'articles, il fallait des humains pour les lire et les classer (ce qui est lent et cher).
Avec cette méthode :

C'est automatique : L'ordinateur transforme le texte en chiffres utilisables immédiatement.
C'est flexible : Vous pouvez changer les "6 thèmes" selon ce qui vous intéresse (par exemple, changer "Économie" par "Santé" si vous analysez des articles médicaux).
C'est un signal d'alerte : Si soudainement, tous les articles passent de "Analytique" à "Alarmiste", le système peut vous alerter instantanément, comme un détecteur de fumée pour les idées.

En résumé

Ce papier nous apprend comment transformer une montagne de texte en une boussole numérique. Au lieu de se perdre dans les mots, on obtient une carte claire qui nous dit exactement où se trouve chaque article et quelle est la "météo" générale de l'opinion publique sur un sujet donné. C'est passer de la lecture passive à l'écoute active des données.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les plongements denses (embeddings) sont efficaces pour représenter des documents, mais les espaces vectoriels bruts sont difficiles à exploiter dans des contextes opérationnels (AI Engineering). Le défi principal réside dans la transformation du texte non structuré en signaux sémantiques quantitatifs exploitables directement pour des tâches telles que l'agrégation, la surveillance, la régression ou le routage basé sur des seuils, sans nécessiter d'interprétation humaine indirecte de l'espace latent.

L'approche proposée remet en question la nécessité de générer du contenu explicite (comme des étiquettes textuelles) via des LLM. Au lieu de cela, elle postule que les poids d'un modèle peuvent être traités comme une topologie compressée du langage humain, où l'espace de sortie du modèle sert d'évaluateur de signaux linguistiques latents plutôt que de générateur de texte.

2. Méthodologie

L'article propose un pipeline en quatre étapes pour extraire des signaux sémantiques à partir d'un corpus textuel. L'unité d'analyse est l'article complet (et non un extrait), appliqué ici à un corpus de 11 922 articles de presse portugais sur l'IA (2022-2024).

Étape 1 : Encodage et Représentation

Modèle : Utilisation du modèle Qwen2.5 8B Instruct pour générer des vecteurs d'embedding de 4096 dimensions pour chaque article complet.
Infrastructure : Génération via vLLM et stockage dans PostgreSQL avec extension pgvector.
Objectif : Préserver la structure du document sans découpage (chunking).

Étape 2 : Réduction de Dimension et Partitionnement Structurel

Réduction : Projection de l'espace d'embedding via UMAP vers un espace latent de 5 dimensions (pour l'analyse structurelle) et une projection 2D (pour la visualisation). Le choix de 5D est aligné sur la dimension intrinsèque estimée du corpus ( $d \approx 4,11$ ).
Partitionnement : Application de l'algorithme K-Means ( $K=15$ ) sur la variété 5D pour créer une partition structurelle initiale.
Diagnostic : Utilisation de HDBSCAN uniquement comme outil de diagnostic de densité, car il s'est avéré trop restrictif (éliminant ~45% du corpus comme bruit).

Étape 3 : Évaluation Sémantique par Logprob (Le cœur du signal)

Au lieu de demander au modèle de générer des étiquettes, le pipeline interroge directement l'espace de sortie du modèle pour obtenir des scores continus :

Mécanisme : Pour chaque article et chaque dimension sémantique définie par une paire de pôles (ex: Opportunité vs Risque), le modèle calcule les log-probabilités ( $\lambda^-$ et $\lambda^+$ ) associées aux étiquettes de pôles.
Calcul du score : Un indicateur continu $s_{i,m} \in [0, 1]$ est obtenu via une fonction softmax normalisée :
$s_{i,m} = \frac{\exp(\lambda^+_{i,m})}{\exp(\lambda^-_{i,m}) + \exp(\lambda^+_{i,m})}$
Dictionnaire de 6 dimensions :
1. Opportunité vs Risque
2. Pression Réglementaire
3. Dynamique Économique
4. Éthique vs Utilité
5. Portée Géopolitique
6. Urgence

Étape 4 : Réduction du Bruit par Détection d'Anomalies (3 étapes)

Pour stabiliser la structure et éliminer les documents topologiquement instables, trois filtres successifs sont appliqués :

Filtre Global (Distance) : Élimination des points situés à plus de $1,2\sigma$ de la centroïde globale définie par le cœur HDBSCAN.
Filtre Local (Mavericks) : Élimination des points situés à plus de $1,8\sigma$ de la centroïde de leur région K-Means respective.
Filtre Structurel (Connectivité) : Utilisation d'une approche inspirée de SCAN pour éliminer les îlots sémantiques déconnectés (composantes connexes) en ne conservant que la plus grande composante.

3. Résultats Clés

L'application de ce pipeline sur le corpus d'articles portugais sur l'IA a produit les résultats suivants :

Stabilisation Structurelle : La partition initiale de 15 régions a été affinée en 13 régions stables après élimination de 2 565 articles (environ 21,5% du corpus) considérés comme des outliers topologiques.
Cartographie Sémantique : Les pôles opposés de chaque dimension sémantique occupent des régions spatiales distinctes et localisées sur la carte 2D, validant que les scores logprob ne sont pas de simples étiquettes superposées mais correspondent à des tendances spatiales récurrentes.
Profil du Corpus : L'analyse agrégée montre que le corpus est majoritairement centré sur :
- L'Opportunité (89% dans les quartiles supérieurs).
- Une Surveillance Réglementaire faible (49% dans le bas/moyen).
- Une Croissance Économique (67% dans le quartile supérieur).
- Une approche Éthique équilibrée (94% dans la zone centrale).
- Un ton Analytique (63%) plutôt que de crise.
Validation de la Centralité : La distribution des scores de centralité sémantique (mesure de l'alignement avec le thème "IA") confirme que le filtrage par mots-clés initial était efficace, tout en montrant que les articles retirés comme "bruit" n'étaient pas nécessairement hors-sujet, mais topologiquement instables.

4. Contributions Principales

Pipeline "Text-as-Signal" Opérationnel : Transformation du texte en données continues exploitables pour l'ingénierie IA (surveillance, routage, régression) sans dépendre de l'étiquetage manuel.
Utilisation des Logprobs comme Signal : Démonstration que l'interrogation directe de l'espace de sortie des LLM (via les log-probabilités) fournit un signal plus stable et continu que la génération de texte explicite pour la classification.
Architecture Hybride de Réduction de Bruit : Combinaison innovante de la géométrie (UMAP/K-Means) et de la densité (HDBSCAN) avec des filtres statistiques et topologiques pour isoler un "noyau" sémantique stable.
Identité Sémantique Configurable : Le système permet de définir un dictionnaire de dimensions sémantiques adaptable aux besoins spécifiques d'un flux d'analyse, plutôt que d'être figé sur un schéma universel.

5. Signification et Implications

Ce travail marque un changement de paradigme dans le traitement du texte pour l'IA :

De la Visualisation à l'Opérationnalité : Il ne s'agit plus seulement de cartographier des espaces latents pour l'exploration humaine, mais de créer des métriques quantitatives robustes pour des systèmes automatisés.
Évolutivité : La méthode permet de surveiller l'évolution des discours (dérive temporelle, chocs événementiels) et d'alimenter des modèles prédictifs en utilisant les profils sémantiques comme variables explicatives.
Robustesse : En éliminant les documents structurellement instables (qui pourraient fausser les analyses), le pipeline garantit que les signaux sémantiques reflètent une réalité discursive cohérente.

Limites notées par les auteurs : Le pipeline est validé opérationnellement mais n'a pas fait l'objet d'une étude comparative exhaustive de paramètres (ex: sensibilité des prompts, choix de K). Il dépend également d'une infrastructure d'inférence locale performante (vLLM, GPU).

En conclusion, cette approche fournit une méthode concrète pour transformer des corpus textuels non structurés en signaux sémantiques quantitatifs, facilitant ainsi l'intégration de l'analyse de texte dans les pipelines d'ingénierie de l'IA modernes.