Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Este artigo descreve um fluxo de trabalho determinístico e baseado em regras, implementado no script `cad_processor.py`, que processa extratos administrativos para calcular e relatar custos por aluno, agregando dados por escola e ano e aplicando uma camada de bandagem fuzzy interpretável para classificar os custos como baixos, médios ou altos com total rastreabilidade e reprodutibilidade.

Shane Lee, Stella Ng

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o diretor de uma grande escola e precisa decidir como distribuir o dinheiro do orçamento. Você recebe um monte de planilhas confusas com dados sobre professores temporários, custos e número de alunos. O problema é: como ter certeza de que os números que você está vendo são reais e não foram "mágicos" ou alterados no caminho?

Este artigo de Shane Lee e Stella Ng apresenta uma solução inteligente que funciona como um "Cozinheiro de Dados" muito rigoroso e um "Tradutor" amigável.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O "Cozinheiro" Rigoroso (Processamento Determinístico)

Imagine que você tem uma receita de bolo (o código do programa, chamado cad_processor.py).

  • A Entrada: Você pega os ingredientes exatos (o arquivo Excel bruto com os dados da escola).
  • A Regra: O cozinheiro segue a receita passo a passo, sem improvisar. Se a receita diz "se o ovo estiver quebrado, jogue fora", ele joga fora. Se diz "se faltar açúcar, use zero", ele usa zero.
  • A "Impressionante" Digital: Antes de começar a cozinhar, o cozinheiro tira uma "foto digital" (um hash SHA-256) dos ingredientes originais. É como se ele gravasse a impressão digital exata do pacote de farinha e ovos.
  • O Resultado: Ele produz um novo bolo (a planilha processada) que é idêntico sempre que você usa os mesmos ingredientes e a mesma receita. Se alguém tentar mudar um grama de açúcar no pacote original, a "foto digital" muda, e o cozinheiro avisa: "Ei, os ingredientes não são os mesmos de antes!".

Isso garante confiança. Se você quiser checar o trabalho, pode pegar os mesmos ingredientes e a mesma receita e refazer o bolo. Se o resultado for diferente, algo está errado.

2. Limpando a Cozinha (Tratamento de Dados)

Muitas planilhas vêm sujas. Tem linhas de "Total Geral" que não deveriam ser contadas, ou células vazias.

  • O sistema tem regras claras:
    • Se a linha diz "Total", ele a ignora (como tirar a tampa da panela antes de pesar o conteúdo).
    • Se falta o número de alunos, ele trata como "zero alunos" (não deixa a conta quebrar).
    • Se o custo é zero e os alunos são zero, ele diz "Sem atividade".
    • Se há custo mas zero alunos, ele diz "Indefinido" (como tentar dividir um bolo para ninguém).
  • Tudo isso é contado em um "Livro de Atas" (a aba Processing Summary), para que você saiba exatamente quantos ingredientes foram jogados fora e por quê.

3. O "Tradutor" de Cores (Banda Fuzzy)

Agora, imagine que você tem uma lista de 50 escolas. Algumas gastam R100poraluno,outrasR 100 por aluno, outras R 10.000. Olhar apenas para os números é difícil. O cérebro humano prefere categorias simples: "Barato", "Médio" e "Caro".

Mas como definir o que é "Caro"?

  • O Erro Comum: Dizer que "Caro" é qualquer coisa acima de R$ 5.000. Isso é rígido demais.
  • A Solução do Artigo (Banda Fuzzy): Eles olham para o grupo de escolas de um único ano e criam uma régua flexível baseada naquele grupo específico.
    • O Mínimo: A escola mais barata do ano vira o ponto de partida da categoria "Baixo".
    • O Máximo: A escola mais cara vira o ponto de partida da categoria "Alto".
    • A Mediana (O Meio): O valor do meio vira o pico da categoria "Médio".

A Mágica da "Fuzzy" (Neblina):
Ao invés de dizer "Se você gastar R4.999,voce^eˊBarato,massegastarR 4.999, você é Barato, mas se gastar R 5.000, você vira Caro de repente", o sistema usa uma neblina.

  • Uma escola que gasta um pouco mais que o mínimo começa a ter uma "sombra" de ser "Média" também.
  • É como um semáforo que não muda de verde para vermelho instantaneamente; passa pelo amarelo.
  • O sistema calcula uma "peso de pertencimento" (de 0 a 1). Uma escola pode ser 70% "Média" e 30% "Baixa".
  • A Regra de Empate: Se uma escola estiver exatamente no meio (50% Baixa, 50% Média), o sistema decide de forma automática e justa: "Neste caso, vamos chamar de Média". Isso evita confusão.

4. Por que isso é importante?

Geralmente, quando vemos tabelas de custos, elas parecem "caixas pretas". Ninguém sabe como os números foram feitos.

  • Transparência: Este método deixa a "caixa preta" aberta. Você vê os ingredientes, a receita, a foto digital dos ingredientes e o tradutor de cores.
  • Justiça: Ao usar os limites (mínimo, mediano, máximo) de cada ano separadamente, você compara as escolas de 2023 com as de 2023, e não mistura tudo com as de 2024, onde a inflação pode ter mudado tudo.
  • Segurança: Se alguém tentar alterar a planilha original depois que o relatório foi feito, a "foto digital" (hash) não vai bater, e todo mundo saberá que os dados foram adulterados.

Resumo em uma frase

Os autores criaram um sistema que transforma planilhas confusas de custos escolares em relatórios confiáveis e auditáveis, usando uma "receita" infalível para garantir que os números sejam reais e um "tradutor inteligente" para classificar os gastos em Baixo, Médio e Alto de forma justa e visualmente clara.