Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Este artículo presenta un flujo de trabajo determinista e interpretable, implementado en un script de Python, que procesa registros extraídos de una base de datos académica para calcular y categorizar mediante lógica difusa los costos por estudiante, generando informes reproducibles y trazables para la toma de decisiones administrativas.

Shane Lee, Stella Ng

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tu universidad es una gran cocina donde se preparan miles de platos (clases) para estudiantes. Cada plato tiene un costo (salarios de profesores, materiales, impuestos) y una cantidad de comensales (estudiantes).

El problema es que los datos de esta cocina llegan en un montón de hojas de cálculo desordenadas, llenas de errores, números faltantes y notas confusas. Los directores necesitan saber: "¿Cuánto cuesta alimentar a un estudiante en cada clase?" para tomar decisiones sobre el presupuesto.

Este artículo presenta una solución inteligente y muy ordenada para limpiar esos datos y darles sentido. Aquí te lo explico con analogías sencillas:

1. El "Cocinero Robótico" Infalible (Procesamiento Determinista)

Imagina que tienes un robot llamado cad_processor.py. Su trabajo es tomar la hoja de cálculo original (la "materia prima") y transformarla en un reporte limpio.

  • ¿Qué hace especial a este robot? Es determinista. Esto significa que si le das exactamente el mismo plato de ingredientes (el mismo archivo de Excel, byte por byte) y le dices que cocine de la misma manera, siempre obtendrás el mismo resultado final. No hay "hoy me salió un poco salado, mañana un poco dulce".
  • La huella digital: Antes de empezar, el robot toma una "foto digital" (un código único llamado SHA-256) de los ingredientes originales. Si alguien intenta cambiar una sola letra en el archivo original, la foto digital cambia y el robot sabe que algo ha sido manipulado. Esto garantiza que nadie pueda decir "los números cambiaron por error" cuando en realidad cambiaron porque los ingredientes eran distintos.

2. La Limpieza de la Cocina (Reglas Claras)

Antes de cocinar, el robot revisa los ingredientes con reglas estrictas:

  • Si falta el precio de un ingrediente, lo trata como 0 (pero cuenta cuántos faltaron).
  • Si hay un número negativo de estudiantes (algo imposible), lo tira a la basura.
  • Si una fila dice "Total" o "Suma" (que son resúmenes y no datos reales), la ignora para no contar dos veces.
  • Si hay costos pero cero estudiantes, el robot deja esa casilla en blanco (porque no se puede dividir entre cero) y lo marca como "Indefinido".

El robot lleva un cuaderno de bitácora (el "Processing Summary") donde anota: "Entraron 1000 filas, tiré 50 por errores, y 10 tenían precios faltantes". Así, cualquier auditor puede revisar el cuaderno y ver exactamente qué pasó.

3. El Semáforo Inteligente (Banding Difuso)

Una vez que el robot calcula el costo por estudiante, tiene miles de números. Algunos son muy bajos (baratos), otros muy altos (caros). ¿Cómo saber si un costo es "alto" o "bajo" sin usar una regla rígida?

Aquí entra la magia de las "Bandas Difusas" (Fuzzy Banding).

Imagina que tienes un termómetro para medir la temperatura del agua, pero en lugar de decir solo "Frío" o "Caliente", usamos un semáforo de colores que cambia suavemente:

  • Verde (Bajo): El agua está fresca.
  • Amarillo (Medio): Está tibia.
  • Rojo (Alto): Está hirviendo.

La genialidad de este sistema es que no hay una línea dura donde el agua pasa de tibia a hirviendo.

  • Si el agua está a 49°C, es casi totalmente "Tibia" (Amarillo) pero un poquito "Hirviendo" (Rojo).
  • Si está a 51°C, es casi totalmente "Hirviendo" pero un poquito "Tibia".

El sistema calcula cuánto pertenece a cada color (un porcentaje de 0 a 1).

  • Ejemplo: Un costo puede ser un 60% "Bajo" y un 40% "Medio".
  • La regla de desempate: Si un costo está exactamente en la mitad (50% Bajo, 50% Medio), el robot tiene una regla fija para decidir: siempre elige el del medio ("Medio"). Esto evita que un número pequeño cambie drásticamente de categoría solo por un centavo de diferencia.

4. El Reporte Final (La Carta del Restaurante)

Al final, el robot entrega un libro con cuatro páginas:

  1. Resumen de la Cocción: La foto digital del archivo original, cuántos errores encontró y las reglas que usó.
  2. Mapa de Calores: Una tabla que muestra los costos por escuela y año, pintada con colores (verde a rojo) para ver rápidamente dónde hay problemas.
  3. El Menú Detallado: Una lista con cada clase, su costo y cuántos estudiantes tenía.
  4. La Etiqueta de Temperatura: La lista con los colores (Bajo, Medio, Alto) y los porcentajes de pertenencia, explicando por qué se asignó ese color.

¿Por qué es importante esto?

En el mundo real, los directores a menudo discuten presupuestos basándose en hojas de cálculo que nadie entiende del todo. Este método ofrece:

  • Confianza: Sabes exactamente de dónde salieron los números.
  • Transparencia: Puedes ver las reglas de limpieza y los "colores" que se usaron.
  • Justicia: Al usar un sistema flexible (difuso) en lugar de reglas rígidas, se reconoce que la realidad es gris y no blanco o negro. Un costo no es "malo" solo porque cruzó una línea mágica; es "casi malo".

En resumen, es como tener un chef robot con lupa que no solo cocina el menú perfecto, sino que te deja ver cada ingrediente, cada error que corrigió y te explica por qué ese plato es "picante" o "suave" con una precisión que cualquiera puede entender y verificar.