Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes una biblioteca gigante llena de miles de noticias sobre Inteligencia Artificial. Leerlas una por una es imposible, y si intentas buscar temas con palabras clave simples, te pierdes el contexto.

Este paper (artículo científico) propone una forma inteligente de transformar texto en "señales" medibles, como si convirtieras las noticias en un mapa de temperatura o un panel de control de un cohete.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El "Ruido" de la Biblioteca

Imagina que entras a esa biblioteca y todo es un caos. Hay noticias cortas, largas, algunas muy serias, otras alarmistas, y muchas que hablan de cosas que no son estrictamente IA.

Lo que hacían antes: Intentaban agrupar noticias por temas (como poner todas las de "robots" en una caja y las de "leyes" en otra).
Lo que hacen aquí: En lugar de solo poner etiquetas, quieren medir cada noticia en un "espacio de identidad". Quieren saber exactamente dónde se sitúa cada noticia en un mapa mental.

2. La Solución: Tres Pasos Mágicos

Ellos crearon un "tubo de procesamiento" (pipeline) con tres etapas principales:

A. El Escáner de Identidad (Los Embeddings)

Primero, toman cada noticia completa (no solo un fragmento) y la pasan por un "escáner" muy potente (un modelo de IA llamado Qwen).

La analogía: Imagina que cada noticia es una persona. El escáner le toma una foto de alta definición y le asigna un código de barras único de 4096 dígitos. Este código no es solo texto; es una representación matemática de quién es esa noticia y de qué trata realmente.

B. El Mapa de Terreno (UMAP y Reducción de Dimensiones)

Tener 4096 números es demasiado para un humano. Es como intentar dibujar un mapa en un espacio de 4096 dimensiones.

La analogía: Usan una herramienta llamada UMAP que actúa como un "prensador de nubes". Toma esa nube gigante y compleja de datos y la aplana suavemente en un mapa de 2D (como un plano de ciudad) o 5D, manteniendo las distancias.
- Si dos noticias son muy parecidas, aparecerán pegadas en el mapa.
- Si son muy diferentes, estarán lejos.
- Así, el caos se convierte en islas y continentes de temas.

C. El Filtro de Ruido (Detectar Anomalías)

En cualquier mapa, hay "fantasmas": noticias que no encajan en ningún grupo, que están perdidas en el medio de la nada o que son errores.

La analogía: Imagina que estás limpiando una playa.
1. Filtro Global: Quitas a los bañistas que están a 100 km de la orilla (datos que no pertenecen al tema principal).
2. Filtro Local: Quitas a la gente que está en la orilla pero flotando en una dirección extraña dentro de su propia zona (datos que parecen del grupo pero no lo son).
3. Filtro Estructural: Quitas las "islas" que están tan aisladas que no tienen puente hacia el continente.
- Resultado: Te quedas solo con el "continente sólido", una versión limpia y estable de los datos.

3. La Magia: El Diccionario de "Puntos Cardinales"

Aquí está la parte más interesante. Una vez que tienen el mapa limpio, no solo miran dónde están las noticias, sino que les asignan 6 brújulas (dimensiones semánticas) para medir su "personalidad":

Oportunidad vs. Riesgo: ¿Es una noticia optimista o aterradora?
Presión Regulatoria: ¿Habla de leyes estrictas o de libertad?
Impulso Económico: ¿Es algo de nicho académico o un motor comercial?
Ética vs. Utilidad: ¿Se preocupa por los humanos o solo por la eficiencia?
Alcance Geopolítico: ¿Es local (Portugal/Europa) o global?
Urgencia: ¿Es un análisis tranquilo o una noticia de "último minuto" alarmista?

¿Cómo lo hacen?
En lugar de pedirle a la IA que escriba un resumen (lo cual puede ser subjetivo), le preguntan: "¿Qué tan probable es que esta noticia hable de 'Peligro' en lugar de 'Oportunidad'?". La IA responde con un número exacto (de 0 a 1).

La analogía: Es como tener un termómetro para cada noticia. En lugar de decir "esta noticia es fría", el termómetro dice "esta noticia tiene 0.8 de temperatura de 'Riesgo'".

4. El Resultado Final: Un Panel de Control Vivo

Al final, tienen dos cosas poderosas:

Para cada noticia: Sabes exactamente dónde está en el mapa y cuál es su "perfil de personalidad" (ej: "Esta noticia es 80% económica, 20% ética y muy urgente").
Para todo el conjunto: Puedes ver la "personalidad" de toda la biblioteca.
- Ejemplo del estudio: Descubrieron que las noticias de IA en Portugal se centran mucho en la oportunidad económica y el crecimiento, pero tienen muy poco miedo al riesgo o a la crisis. Es un mapa que muestra que la conversación es mayoritariamente optimista y comercial.

¿Por qué es útil esto?

Imagina que eres un gestor de una empresa o un político.

Antes: Tenías que leer cientos de noticias para saber "qué se está diciendo".
Ahora: Miras tu panel de control. Ves que la "brújula de Urgencia" está subiendo de golpe. ¡Alerta! Algo está pasando. O ves que la "brújula de Ética" está bajando. ¡Cuidado! La conversación se está volviendo demasiado fría y utilitaria.

En resumen:
Este paper convierte el texto (que es caótico y difícil de medir) en señales numéricas limpias y medibles. Es como transformar una orquesta ruidosa en una partitura digital donde puedes ver exactamente qué instrumento (tema) está tocando más fuerte y si la música está cambiando de tono.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Text-as-Signal

1. El Problema

Las representaciones de texto mediante embeddings densos son efectivas para capturar la semántica de documentos, pero los espacios vectoriales crudos son difíciles de utilizar en entornos operativos. Actualmente, transformar texto en una "señal operativa" requiere extraer coordenadas semánticas, estructurarlas y expresarlas como variables continuas en escalas acotadas.
Sin este proceso, los analistas deben interpretar indirectamente el espacio latente, lo que impide tareas de ingeniería de IA downstream como la agregación automática, el monitoreo continuo, la regresión o el enrutamiento basado en umbrales. Además, los enfoques tradicionales de análisis de contenido (como la generación de etiquetas de texto no estructuradas) carecen de la estabilidad y la continuidad necesarias para el análisis cuantitativo riguroso.

2. Metodología

El artículo propone un pipeline de cuatro etapas diseñado para convertir corpus de texto en señales semánticas cuantitativas y operativas. El caso de estudio se aplica a un corpus de 11,922 artículos de noticias en portugués sobre Inteligencia Artificial (2022-2024).

Fase 1: Incrustación de Documentos Completos

Unidad de análisis: Cada artículo de noticias se trata como una unidad semántica completa, sin fragmentación (chunking).
Modelo: Se utiliza el modelo Qwen2.5 8B Instruct para generar vectores de 4096 dimensiones.
Almacenamiento: Los vectores se almacenan en PostgreSQL con soporte pgvector.

Fase 2: Reducción de Dimensionalidad y Estructura Geométrica

Proyección: Se aplica UMAP para reducir el espacio de incrustación a 5 dimensiones (para análisis estructural) y 2 dimensiones (para visualización). La dimensión 5 se elige basándose en la dimensionalidad intrínseca estimada del corpus ( $d \approx 4.11$ ).
Segmentación: Se aplica K-Means con $K=15$ sobre el manifold de 5D para crear una partición estructural inicial. Esto genera regiones legibles con un promedio de 800 artículos por clúster.
Diagnóstico: HDBSCAN se utiliza únicamente como herramienta diagnóstica de densidad, no como partición final, ya que su clasificación de "ruido" es demasiado restrictiva para este caso.

Fase 3: Puntuación Semántica Basada en Logprobs

En lugar de generar texto libre, el pipeline consulta directamente el espacio de salida del modelo mediante puntuaciones de logprob cero-shot.
Se define un diccionario posicional con seis dimensiones semánticas continuas (escala [0, 1]):
1. Oportunidad vs. Riesgo.
2. Presión Regulatoria.
3. Impulso Económico.
4. Ética vs. Utilidad.
5. Alcance Geopolítico.
6. Urgencia.
Para cada dimensión, se calcula una puntuación continua ( $s_{i,m}$ ) comparando los log-probabilidades de los polos opuestos (ej. "Oportunidad" vs. "Peligro"). Esto genera coordenadas semánticas que complementan la estructura geométrica.

Fase 4: Reducción de Ruido y Limpieza Topológica
Se aplica un proceso de detección de anomalías en tres etapas para filtrar el mapa semántico y asegurar su estabilidad:

Filtro de Outliers Globales: Elimina artículos que están a más de $1.2\sigma$ de la distancia al centroide global del "continente" semántico definido por HDBSCAN.
Filtro de "Mavericks" Locales: Dentro de cada región de K-Means, elimina puntos que están a más de $1.8\sigma$ de su centroide regional.
Filtro de Conectividad Estructural: Utiliza un grafo de vecindad (inspirado en SCAN) para eliminar islas semánticas desconectadas, reteniendo solo el componente conectado más grande.

Resultado: Se eliminan aproximadamente el 21.5% de los artículos (2565 documentos), quedando un mapa central de 13 regiones estables.

3. Contribuciones Clave

Pipeline "Texto como Señal": Transforma el texto no estructurado en datos continuos operativos sin depender de la generación de etiquetas humanas.
Identidad Semántica Continua: Propone un sistema donde cada documento tiene una "identidad" cuantitativa en múltiples dimensiones, permitiendo tanto el análisis a nivel de documento como la caracterización agregada del corpus.
Integración de Logprobs y Topología: Combina la estructura geométrica de los embeddings (UMAP/K-Means) con señales semánticas directas del modelo (logprobs), creando un espacio interpretable donde las regiones espaciales corresponden a tendencias semánticas recurrentes.
Adaptabilidad: La capa de identidad es configurable; el diccionario semántico puede redefinirse según las necesidades de diferentes flujos analíticos, en lugar de estar fijo en un esquema universal.

4. Resultados del Caso de Estudio

Aplicado a las noticias de IA en Portugal, el pipeline reveló:

Estructura del Corpus: El corpus se concentra fuertemente en narrativas de oportunidad (89% en cuartiles altos de oportunidad), crecimiento económico (67% en crecimiento comercial) y ética equilibrada (94% en equilibrio).
Baja Presión en Riesgos Extremos: Hay una ocupación muy baja en los extremos de "Peligro Crítico" (0%) y "Cumplimiento Estricto" (3%).
Validación de la Limpieza: La detección de anomalías eliminó documentos topológicamente inestables, pero no necesariamente documentos de baja relevancia semántica. La distribución de centrality (foco en el tema IA) se mantuvo consistente antes y después del filtrado, confirmando que el ruido eliminado era estructural, no temático.
Visualización Interpretativa: Al proyectar las puntuaciones de logprob sobre el mapa 2D, se observó que los polos opuestos de cada dimensión ocupan regiones espaciales distintas y localizadas, validando la coherencia entre la geometría del embedding y la semántica del modelo.

5. Significado e Impacto

Este trabajo representa un avance significativo en la ingeniería de IA y el análisis de datos textuales:

Operativización: Convierte el análisis de texto en una capacidad de ingeniería de datos concreta, permitiendo el monitoreo automático, la detección de anomalías y el soporte a la toma de decisiones sin intervención humana constante.
Escalabilidad: Al evitar la generación de texto explicativo y usar puntuaciones directas, el sistema es más escalable y estable para grandes volúmenes de datos.
Flexibilidad Analítica: Permite a los ingenieros de datos definir sus propias dimensiones de análisis (el "diccionario") y aplicarlas dinámicamente, haciendo que el sistema sea adaptable a diferentes dominios y objetivos de negocio.
Limitaciones: El autor reconoce que las decisiones de diseño (como $K=15$ o los umbrales de desviación estándar) se validaron operativamente pero no mediante estudios exhaustivos de parámetros o anotación humana extensiva, y que la reproducibilidad depende de una infraestructura de inferencia específica (vLLM, GPUs).

En conclusión, el artículo demuestra que es posible extraer una identidad semántica cuantitativa robusta y continua de corpus de texto masivos, transformando el lenguaje natural en una señal procesable para sistemas de IA modernos.