Comparison of Outlier Detection Algorithms on String Data

Esta tesis compara dos algoritmos de detección de valores atípicos en datos de texto: una variante del factor de outlier local adaptada con una medida de Levenshtein ponderada y un nuevo método basado en expresiones regulares jerárquicas, demostrando que el primero es más eficaz cuando las distancias de edición son distintivas, mientras que el segundo sobresale cuando los valores esperados tienen una estructura claramente diferente a la de los outliers.

Philip Maus

Publicado 2026-03-13
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes una biblioteca gigante llena de libros escritos en un idioma extraño (sonidos, números y letras mezclados). Tu trabajo es encontrar los libros que no deberían estar ahí: los que están escritos en otro idioma, los que tienen páginas arrancadas o los que son simplemente una broma.

Esta tesis de Philip Maus es como un manual de instrucciones para dos "detectives" diferentes que intentan encontrar esos libros raros en una pila de texto. Aquí te explico cómo funcionan estos detectives usando analogías sencillas:

El Problema: ¿Cómo detectar lo raro en el texto?

La mayoría de los programas de inteligencia artificial son expertos encontrando números raros (como un precio de un producto que es 1 millón de dólares cuando lo normal es 10). Pero, ¿qué pasa si los datos son palabras o frases? Como "2023-01-01" (una fecha) o "Bonn" (una ciudad). Los números no sirven aquí, necesitamos detectives que entiendan el idioma y la estructura de las palabras.

El autor prueba dos detectives distintos:


Detective 1: El "Vecino Sospechoso" (Algoritmo LOF)

La Analogía: Imagina una fiesta llena de gente. La mayoría de los invitados se visten de manera similar (por ejemplo, todos llevan traje). De repente, llega alguien con un traje de payaso o una capa de superhéroe.

  • Cómo funciona: Este detective mira a cada persona y le pregunta: "¿Quién te rodea?". Si estás en un grupo donde todos se parecen mucho entre sí, eres "normal". Pero si estás rodeado de gente que se parece a ti, pero tú eres muy diferente de ellos (o si estás solo en un rincón muy lejos de todos), el detective te marca como sospechoso.
  • El truco especial: Para medir qué tan diferente es alguien, el detective usa una "regla de edición" llamada Levenshtein. Imagina que es como contar cuántas letras tienes que borrar o cambiar para que una palabra se parezca a otra.
    • Ejemplo: Cambiar una "a" por una "e" es un cambio pequeño (como cambiar una corbata azul por una roja). Pero cambiar una letra por un número es un cambio enorme (como cambiar un traje por una capa de superhéroe).
    • El autor creó una regla de edición inteligente que entiende que cambiar una letra por otra es "barato", pero cambiar una letra por un símbolo raro es "caro". Esto ayuda a detectar mejor a los intrusos.

Cuándo es bueno: Cuando los datos normales tienen una estructura muy clara y los "raros" son simplemente versiones un poco torcidas de lo normal (como fechas escritas mal o códigos postales con letras).


Detective 2: El "Arquitecto de Plantillas" (Algoritmo HiLRE)

La Analogía: Imagina que tienes una plantilla de galletas. La plantilla solo deja pasar galletas con forma de estrella. Si intentas meter una galleta cuadrada o triangular, la plantilla se niega a dejarla pasar.

  • Cómo funciona: Este detective intenta crear la plantilla perfecta (un "expresión regular") que describa exactamente cómo se ven los datos normales.
    • Si los datos son códigos postales alemanes, el detective aprende que la plantilla debe ser: "Cinco dígitos numéricos".
    • Luego, toma todos los datos y los pasa por la plantilla. Si una palabra no encaja en la plantilla, ¡es un intruso!
  • El truco especial: A veces, la plantilla puede ser demasiado estricta (solo acepta galletas de 5cm) o demasiado floja (acepta cualquier forma). El autor añadió un "botón de ajuste" para decirle al detective: "Oye, asegúrate de que tu plantilla acepte al menos al 80% de la gente, pero no aceptes a los raros".

Cuándo es bueno: Cuando los datos normales tienen una estructura muy rígida y predecible (como fechas, horas o códigos postales). Es excelente si sabes exactamente cómo deberían verse los datos.


La Gran Prueba: ¿Quién gana?

El autor puso a los dos detectives a trabajar con datos reales de hospitales alemanes (direcciones, fechas, números de teléfono).

  1. Caso 1: Códigos postales vs. Nombres de ciudades.

    • Los códigos postales son siempre 5 números. Los nombres de ciudades son letras y tienen longitudes variadas.
    • Resultado: El Arquitecto de Plantillas fue un genio. Creó una plantilla de "5 números" y rechazó todo lo demás. El Vecino Sospechoso también lo hizo bien, pero a veces se confundía si un nombre de ciudad tenía exactamente 5 letras.
  2. Caso 2: Nombres de ciudades vs. Códigos postales.

    • Aquí, los "datos normales" eran nombres de ciudades (muy variados, largos, cortos, con paréntesis).
    • Resultado: El Arquitecto de Plantillas se rindió. No pudo crear una plantilla que cubriera todos los nombres de ciudades sin incluir también a los códigos postales. Se volvió confuso. El Vecino Sospechoso tampoco lo hizo muy bien porque los nombres de ciudades son tan variados que es difícil saber quién es "normal" y quién es "raro".
  3. Caso 3: Códigos postales vs. Números de teléfono y casas.

    • Aquí, los datos normales son 5 números. Los raros son números de teléfono (más largos) o direcciones de casas (con letras).
    • Resultado: El Vecino Sospechoso ganó. Como los números de teléfono son más largos, el detective vio que estaban "lejos" de la mayoría de los códigos postales y los marcó. El Arquitecto se confundió porque ambos son números y le costó distinguirlos.

Conclusión Simple

No existe un detective perfecto para todo.

  • Si tus datos son como fichas de dominó (todos siguen una regla estricta, como fechas o códigos), usa al Arquitecto de Plantillas. Es muy preciso y no se equivoca mucho.
  • Si tus datos son como una pila de ropa usada (tienen una forma general, pero varían en tamaño y detalles), usa al Vecino Sospechoso. Es mejor para encontrar lo que se sale de la norma por su tamaño o composición, aunque a veces marque a gente inocente.

El trabajo de Philip Maus nos enseña que, para limpiar datos o encontrar errores en textos, primero debemos entender si los datos son "rígidos" o "flexibles" para elegir al detective adecuado.