Link Prediction for Event Logs in the Process Industry

Each language version is independently generated for its own context, not a direct translation.

Imagine que você trabalha em uma grande fábrica de produtos químicos ou farmacêuticos. Todos os dias, os trabalhadores fazem anotações em cadernos de turno (os "shift books") sobre o que aconteceu: uma máquina parou, um problema foi resolvido, uma peça foi trocada.

O problema é que essas anotações são fragmentadas. Pense em uma história de detetive que foi escrita em pedaços de papel diferentes, espalhados por vários dias e por diferentes pessoas.

Na segunda-feira, alguém escreveu: "A máquina X começou a fazer barulho estranho".
Na terça-feira, outro funcionário escreveu: "Consertamos a válvula da máquina X".
Na quarta-feira, alguém anotou: "A máquina X está rodando perfeitamente".

Para um sistema de Inteligência Artificial (IA) que tenta aprender com o passado para ajudar a resolver problemas hoje, esses três textos parecem histórias totalmente diferentes. O sistema não sabe que elas falam do mesmo evento. É como se o sistema lesse "O gato pulou", "O animal caiu" e "O felino está no chão" e não percebesse que é a mesma história.

O que os autores fizeram?

Eles criaram um "detetive de IA" chamado Modelo de Linkagem de Registros (RL). O objetivo dele é conectar esses pedaços de papel soltos, transformando-os em uma única história coerente.

Aqui está como eles fizeram isso, usando analogias simples:

1. O Problema: A "Colcha de Retalhos"

Na indústria, os dados são como uma colcha de retalhos desorganizada. Para usar a tecnologia moderna de RAG (que é como um assistente de IA que lê seus documentos para responder perguntas), você precisa que a colcha esteja costurada corretamente. Se as peças não estiverem ligadas, o assistente não consegue entender o contexto completo e pode dar conselhos errados.

2. A Solução: Misturando Receitas de Cozinha

Os autores pegaram três técnicas de processamento de linguagem (NLP) que já existiam e as misturaram como se fossem ingredientes de uma receita especial:

Resolução de Coreferência (CDCR): Imagine que você está lendo um livro e precisa saber que "ele", "o homem" e "o presidente" são a mesma pessoa. Essa técnica faz isso, mas em nível de documentos inteiros.
Inferência de Linguagem Natural (NLI): É como um teste de lógica. Se o texto A diz "A válvula quebrou" e o texto B diz "Consertamos a válvula", a IA pergunta: "O texto B faz sentido como uma continuação do texto A?".
Similaridade de Texto Semântico (STS): É como um detector de "vibe". A IA lê dois textos e diz: "Eles falam sobre a mesma coisa, mesmo usando palavras diferentes?".

3. O Ingrediente Secreto: O "Código da Máquina"

Além de ler o texto, o modelo olha para os dados técnicos. Cada máquina na fábrica tem um código único (como um RG). Se dois textos mencionam códigos que pertencem à mesma família de máquinas (ex: ambos começam com "MÁQ-01"), o modelo sabe que há uma alta chance de serem o mesmo evento. É como saber que duas cartas que falam sobre "o carro azul da família Silva" provavelmente são sobre o mesmo carro.

4. A Regra do Tempo (O "Relógio")

O modelo também é esperto sobre o tempo. Ele sabe que se um problema foi relatado hoje e a solução foi escrita daqui a 6 meses, provavelmente não é a mesma história. Ele usa uma técnica chamada tDFS (uma busca inteligente no tempo) para garantir que só conecte textos que aconteceram em uma janela de tempo lógica, como se estivesse organizando os eventos em uma linha do tempo cronológica.

O Resultado da Prova

Eles testaram esse "detetive" em dados reais de sete fábricas na Alemanha.

O resultado: O modelo deles foi 28% melhor do que os melhores modelos que usavam apenas uma das técnicas isoladas.
Por que funcionou? Porque eles adaptaram a IA para a linguagem específica da indústria (treinando-a com textos técnicos alemães) e usaram a lógica do tempo e dos códigos das máquinas, algo que os modelos genéricos ignoram.

Por que isso importa?

Imagine que você é um engenheiro em uma fábrica e uma máquina para. Você pergunta ao seu assistente de IA: "Já aconteceu isso antes?".

Sem o modelo: O assistente diz "Não encontrei nada", porque não conectou o problema de hoje com a solução de 3 anos atrás que estava escrita em um caderno diferente.
Com o modelo: O assistente diz: "Sim! Em 2023, a máquina X travou por causa de uma válvula. Aqui está a solução que eles usaram na época."

Isso economiza tempo, evita acidentes e faz a fábrica funcionar como um relógio. O trabalho mostra que, mesmo na era das IAs gigantes (LLMs), às vezes a melhor solução é um modelo mais simples, mas muito bem adaptado ao mundo real e aos detalhes específicos da indústria.

Each language version is independently generated for its own context, not a direct translation.

Título: Previsão de Links em Registros de Eventos na Indústria de Processos

Autores: Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller, Bela Gipp.

1. Problema e Contexto

Na indústria de processos (química, farmacêutica, etc.), a gestão do conhecimento (KM) é vital para otimização operacional e segurança. Sistemas modernos de Geração Aumentada por Recuperação (RAG) baseados em gráficos de conhecimento (KG) são utilizados para recomendar soluções a partir de dados históricos.

No entanto, um desafio crítico reside na natureza fragmentada dos registros de turnos (shift books). Um único evento ou problema de produção é frequentemente registrado em múltiplas entradas separadas ao longo do tempo, conforme mais detalhes surgem. Essa fragmentação impede que os sistemas de IA conectem essas entradas dispersas, dificultando a recuperação de soluções anteriores e a formação de uma narrativa coesa sobre o problema.

O objetivo deste trabalho é realizar a Previsão de Links (Link Prediction) para conectar registros de texto que pertencem ao mesmo evento, tratando-o como uma tarefa de Resolução de Correferência entre Documentos (CDCR - Cross-Document Coreference Resolution), adaptada para o domínio industrial.

2. Metodologia

Os autores propõem um modelo de Vinculação de Registros (Record Linking - RL) que adapta e combina três tarefas de Processamento de Linguagem Natural (NLP): CDCR, Inferência de Linguagem Natural (NLI) e Similaridade Semântica de Texto (STS).

A. Adaptação de Definições (CDCR para RL)

O trabalho mapeia conceitos de CDCR para o contexto industrial:

Tópico: Um livro de registros de uma única planta industrial.
Subtópico: Uma janela de tempo deslizante (dias) onde um problema é resolvido.
Documento: Um turno de produção de 8 horas.
Menção: Um registro inteiro (frase ou parágrafo) contendo metadados estruturados (timestamp, código de máquina), em vez de apenas uma frase curta.
Correferência: Definida como uma cadeia lógica onde uma menção (premissa) leva a outra (hipótese/conclusão) dentro da mesma narrativa de resolução de problemas.

B. Arquitetura do Modelo

O modelo proposto consiste em duas etapas principais:

Avaliação de Pares de Registros (Record-pair scoring):
- Utiliza um modelo de linguagem baseado em GBERT (especificamente uma versão adaptada ao domínio chamada daGBERT), pré-treinado continuamente na indústria de processos.
- Codificação Conjunta: Dois registros são concatenados no formato [CLS] <registro 1> [SEP] <registro 2> [SEP].
- Vetores de Recurso: O vetor final de características ( $m_t$ $m_{t}$ ) combina:
  - A codificação conjunta do token [CLS].
  - Vetores de atenção ponderada de cada menção individual.
  - Multiplicação elemento a elemento dos vetores.
  - Vetor de Recurso FL (Functional Location): Um recurso externo baseado na sobreposição hierárquica dos códigos de localização funcional (máquinas). Se dois códigos compartilham o mesmo pai ou raiz, a similaridade aumenta.
- Um rede neural feedforward (FFNN) calcula a probabilidade de os dois registros serem correferentes.
Agrupamento de Menções (Mention Clustering):
- Substitui o agrupamento hierárquico padrão (HC) por uma Busca em Profundidade Dependente do Tempo (tDFS).
- O tDFS considera restrições temporais: dois registros só podem ser agrupados se estiverem dentro de um limite de tempo definido (baseado no terceiro quartil das diferenças de tempo nos dados).
- Isso preserva a ordem lógica dos eventos, evitando agrupar registros de histórias diferentes que ocorrem em épocas distintas.

C. Treinamento

Dados: Proprietários, provenientes de 7 plantas alemãs (química e farmacêutica).
Estratégia: O modelo é treinado em uma mistura de subtópicos de várias plantas para evitar "esquecimento catastrófico" e generalizar para diferentes estilos de relatórios.
Amostragem: Pares positivos são menções adjacentes na mesma cadeia; pares negativos incluem menções de cadeias diferentes, ordem reversa ou não adjacentes.

3. Contribuições Principais

Definição de Tarefa: Estabelece a vinculação de registros industriais como uma tarefa de CDCR adaptada, integrando NLI e STS.
Modelo Híbrido: Desenvolve um modelo que combina codificação contextual de transformers com metadados estruturados específicos do domínio (códigos de máquinas/FL).
Adaptação de Domínio: Demonstra a eficácia do daGBERT (modelo BERT adaptado continuamente para o domínio alemão da indústria de processos) em comparação com modelos de propósito geral.
Método de Agrupamento: Propõe o uso de tDFS em vez de agrupamento hierárquico, alinhando-se melhor à natureza temporal e sequencial dos registros de produção.

4. Resultados

A avaliação foi realizada usando métricas padrão de resolução de correferência (MUC, B3, CEAF_e) e a pontuação média F1 CoNLL.

Desempenho Superior: O modelo proposto (daGBERT + FL + tDFS) superou significativamente as melhores linhas de base:
- 28% (11,43 pontos) de melhoria em relação à melhor arquitetura baseada em NLI.
- 27,4% (11,21 pontos) de melhoria em relação à melhor arquitetura baseada em STS.
Impacto dos Componentes:
- O uso de daGBERT superou consistentemente o GBERT padrão e modelos como mGTE, destacando a importância da adaptação de domínio.
- O recurso FL (códigos de máquina) melhorou o desempenho quando combinado com o tDFS, validando o uso de metadados estruturados.
- O algoritmo tDFS superou sistematicamente o agrupamento hierárquico (HC), provando que a dependência temporal é crucial para este domínio.
Generalização: O modelo mostrou forte capacidade de transferência, performando bem em tópicos (plantas) com poucos dados de treinamento.

5. Significado e Conclusão

Este trabalho demonstra que tarefas comuns de NLP podem ser adaptadas e combinadas para resolver problemas específicos de dados na indústria de processos. Ao melhorar a qualidade e a conectividade dos registros de turnos através da previsão de links:

Melhora a Qualidade dos Dados: Transforma registros fragmentados em grafos de conhecimento coerentes.
Otimiza Sistemas RAG: Permite que sistemas de recomendação de soluções baseados em RAG acessem o histórico completo de um evento, não apenas entradas isoladas.
Eficiência Operacional: Facilita a resolução rápida de problemas em plantas de produção, reduzindo tempo de inatividade e erros.

Os autores concluem que, apesar do avanço dos LLMs, modelos baseados em BERT (como o proposto) são preferíveis neste cenário devido ao seu custo computacional mais baixo, facilidade de ajuste fino e eficiência na inferência, essenciais para ambientes industriais com recursos limitados.