LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande frota de caminhões (os servidores da Databricks) que precisa entregar pacotes (tarefas de dados) para milhares de clientes todos os dias. O seu grande desafio é: quanto tempo cada caminhão vai levar para fazer a entrega?

Se você errar a estimativa:

Se achar que é mais rápido do que realmente é, o caminhão chega atrasado e o cliente fica bravo (violação de prazo).
Se achar que é mais lento, você contrata caminhões gigantes e caros para uma entrega simples, desperdiçando dinheiro (custo desnecessário).

Até agora, para prever esse tempo, as empresas usavam "engenheiros humanos" que criavam regras manuais e estáticas. Era como tentar prever o trânsito olhando apenas para o mapa da cidade, sem saber se choveu, se houve um acidente ou se a estrada estava cheia de buracos. Funcionava, mas era lento e não pegava as surpresas do dia a dia.

Aqui entra o LeJOT-AutoML, a solução apresentada neste artigo. Vamos entender como ele funciona usando uma analogia simples:

1. O Problema: O Mapa vs. A Realidade

Os métodos antigos olhavam apenas para o "mapa estático" (o código do programa e o tamanho da tabela de dados). Mas, na vida real, o tempo de entrega depende de coisas que só acontecem durante a viagem:

Desvios de rota: O sistema decide ignorar partes da estrada (pruning de partições).
Trânsito inesperado: Um caminhão fica lento porque um pacote é muito pesado (desequilíbrio de dados).
Paradas na estrada: O caminhão precisa trocar de carga várias vezes (shuffling).

Os engenheiros humanos tinham dificuldade em criar regras para todas essas surpresas, e atualizar essas regras levava semanas.

2. A Solução: O "Detetive Inteligente" (LeJOT-AutoML)

O LeJOT-AutoML é como um sistema de detetives automatizados que usam Inteligência Artificial (LLMs) para investigar cada tarefa antes de ela começar. Em vez de um humano desenhando as regras, temos três agentes (detectives) trabalhando juntos:

O Analista (FAA): Ele lê manuais antigos, logs de viagens passadas e o código da tarefa. Com a ajuda de uma IA, ele diz: "Ei, olha! Na última vez que fizemos isso, o trânsito ficou ruim porque choveu. Vamos criar uma regra para medir a 'umidade' da estrada agora!" Ele gera uma lista de coisas novas para medir.
O Coletor (FExA): Ele pega a lista do Analista e vai até a "fábrica de dados" (usando ferramentas seguras) para medir essas coisas. Ele abre o código, lê os registros de erros e faz perguntas ao banco de dados para ver o que está acontecendo agora.
O Fiscal (FEvA e os Portões de Segurança): Antes de usar qualquer nova regra, ele verifica duas coisas cruciais:
1. Código Funciona? A regra foi escrita corretamente?
2. Não é Trapaça? A regra não pode usar informações do futuro (como saber o tempo final da entrega antes dela acontecer). Isso é chamado de "vazamento de dados".

3. A Mágica: Aprendizado Rápido

A grande vantagem é a velocidade.

Método Antigo: Um engenheiro humano levava um mês para criar, testar e ajustar as regras de previsão.
LeJOT-AutoML: O sistema faz todo esse ciclo (criar regras, testar, ajustar) em 20 a 30 minutos.

É como se, em vez de esperar um mês para aprender que "chuva atrapalha o trânsito", o sistema aprendesse isso em 20 minutos e já aplicasse a regra para a próxima viagem.

4. Os Resultados: Economizando Dinheiro

O sistema foi testado em uma empresa real usando a plataforma Databricks.

Quantidade de Dados: O sistema automático criou mais de 200 tipos de regras (medindo coisas como desequilíbrio, tempo de espera, etc.), enquanto o método manual tinha apenas cerca de 40.
Precisão: O método manual ainda é um pouco mais preciso (91% de acerto vs. 81% do automático), mas o automático é "bom o suficiente" e muito mais ágil.
Economia: Ao usar as previsões do sistema automático para escolher os caminhões certos, a empresa economizou 19% no custo total da operação.

Resumo em uma Frase

O LeJOT-AutoML é um sistema que usa Inteligência Artificial para criar, testar e melhorar automaticamente as regras de previsão de tempo de tarefas de dados, transformando um processo que levava meses em algo que acontece em minutos, economizando muito dinheiro ao evitar o desperdício de recursos computacionais.

É como trocar um engenheiro de tráfego que atualiza o mapa uma vez por ano, por um sistema de GPS em tempo real que aprende com cada carro que passa e ajusta a rota instantaneamente.

Each language version is independently generated for its own context, not a direct translation.

Título: LeJOT-AutoML: Engenharia de Atributos Impulsionada por LLM para Previsão de Tempo de Execução de Jobs em Otimização de Custos do Databricks

1. O Problema

Os sistemas de orquestração de jobs em nuvem, como o LeJOT (baseado no Databricks), visam reduzir custos de computação selecionando configurações de recursos de baixo preço que ainda atendam a restrições de latência e dependências. O sucesso dessa estratégia depende criticamente da precisão na previsão do tempo de execução dos jobs.

No entanto, existem quatro obstáculos principais nas abordagens atuais:

Sinais Ocultos em Runtime: O volume de dados efetivamente processado e o desempenho real (ex: partition pruning, data skew, amplificação de shuffle) só se tornam claros durante a execução, não sendo capturados por metadados estáticos.
Fragmentação de Dados: Os sinais relevantes estão dispersos em fontes heterogêneas: logs de execução, metadados, scripts de jobs e históricos de configuração.
Engenharia Manual e Rígida: A engenharia de atributos (features) atual depende de especialistas humanos em Spark SQL e lógica estática, o que é lento, propenso a erros e não se adapta rapidamente a mudanças na carga de trabalho (workload drift).
Ciclos de Atualização Lentos: A re-treinagem e validação manuais levam semanas, resultando em modelos desatualizados que degradam a eficiência de custos e a qualidade da orquestração.

2. Metodologia: LeJOT-AutoML

O LeJOT-AutoML é um framework de AutoML orientado por agentes (agent-driven) que utiliza Grandes Modelos de Linguagem (LLMs) para automatizar todo o ciclo de vida da engenharia de atributos e treinamento de modelos.

Arquitetura e Fluxo de Trabalho:
O sistema opera em duas fases principais (Treinamento e Inferência) e envolve três agentes principais coordenados por um protocolo de ferramentas (MCP - Model Context Protocol):

Agente Analisador de Atributos (FAA - Feature Analyzer Agent):
- Utiliza RAG (Retrieval-Augmented Generation) para acessar uma base de conhecimento de domínio (melhores práticas do Spark SQL, conhecimento da plataforma Databricks).
- Analisa artefatos heterogêneos (logs, metadados, scripts) e propõe um conjunto estruturado de candidatos de atributos.
Agente de Extração de Atributos (FExA - Feature Extraction Agent):
- Invoca o MCP Toolchain, que inclui:
  - Parsers de Logs: Para extrair métricas de desempenho.
  - Consultas de Metadados: Para estrutura de tabelas e partições.
  - Sandbox SQL de Leitura: Para executar consultas seguras e obter estatísticas de runtime sem risco de modificação de dados.
- Sintetiza e executa código para materializar tanto atributos estáticos quanto dinâmicos (derivados de runtime).
Agente de Avaliação de Atributos (FEvA - Feature Evaluation Agent):
- Avalia a qualidade dos atributos (cobertura, viés, utilidade) e o desempenho do modelo.
- Fornece feedback iterativo para refinar o pipeline e acelerar a adaptação a mudanças.

Mecanismos de Segurança (Safety Gates):
Para garantir confiabilidade em ambiente empresarial, o sistema implementa dois filtros rigorosos antes de qualquer código ser executado ou modelo treinado:

Verificador de Conclusão de Código: Garante que o código gerado seja sintaticamente completo e use apenas bibliotecas aprovadas.
Verificador de Vazamento de Dados (Data Leakage): Garante que os atributos não dependam de informações futuras (pós-execução) que não estariam disponíveis no momento da decisão de orquestração.

Formulação Matemática:
O sistema formula a seleção de atributos como um problema de otimização que equilibra a precisão da previsão com o custo de latência de extração, sujeito a restrições de segurança e orçamento de tempo.

3. Principais Contribuições

Pipeline de AutoML Impulsionado por LLM: Integra agentes de LLM em todas as etapas (análise, extração, validação, seleção de modelo), permitindo re-treinamento rápido e materialização de atributos em tempo de inferência.
Extração Colaborativa Agente-Ferramenta via MCP: Combina o planejamento do LLM com a execução verificada de ferramentas para extrair atributos dinâmicos de runtime que seriam inacessíveis à análise estática pura.
Loop de Avaliação Iterativa com Portões de Segurança: Introduz um agente de avaliação com feedback e verificações de segurança (código e vazamento de dados) para garantir confiabilidade e refinamento contínuo até que critérios pré-definidos sejam atendidos.

4. Resultados Experimentais

Os experimentos foram realizados em cargas de trabalho empresariais do Databricks, comparando o LeJOT-AutoML com a engenharia de atributos manual tradicional.

Diversidade de Atributos: O AutoML gerou mais de 200 atributos (incluindo perfis de logs, séries temporais históricas e dados de nós), enquanto a abordagem manual gerou cerca de 40 atributos focados em configurações de nós.
Velocidade de Desenvolvimento: O ciclo de engenharia de atributos e avaliação foi reduzido de semanas (1 mês) para 20–30 minutos (3 iterações).
Precisão de Previsão:
- O modelo manual alcançou um $R^2$ de 0,91 e MAPE de 19,49%.
- O modelo AutoML alcançou um $R^2$ de 0,81 e MAPE de 20,13%.
- Nota: Embora a precisão absoluta do AutoML seja ligeiramente inferior, ela é competitiva e obtida com uma fração do esforço de engenharia.
Economia de Custos: Integrado ao pipeline LeJOT, a solução AutoML resultou em uma economia de custos de 19,01% na configuração de implantação, demonstrando valor prático mesmo com uma pequena lacuna de precisão em relação ao modelo manual.
Adaptabilidade: O sistema demonstrou capacidade de se adaptar a mudanças de workload, reduzindo o tempo de resposta a desvios (drift) de meses para minutos.

5. Significado e Impacto

O LeJOT-AutoML representa um avanço significativo na automação de sistemas de orquestração de nuvem. Ao substituir a engenharia manual e estática por um sistema dinâmico e orientado por agentes, ele resolve o problema fundamental de capturar sinais de desempenho de "runtime" que são cruciais para a otimização de custos, mas difíceis de modelar manualmente.

A principal contribuição do trabalho é a demonstração de que é possível construir pipelines de ML empresariais robustos, seguros e auto-aperfeiçoáveis que reduzem drasticamente o time-to-market para novos modelos e mantêm a eficiência de custos em ambientes de dados dinâmicos e complexos, como o Databricks. O trabalho abre caminho para sistemas de orquestração que aprendem continuamente e se adaptam automaticamente às mudanças na infraestrutura e nas cargas de trabalho.

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

1. O Problema: O Mapa vs. A Realidade

2. A Solução: O "Detetive Inteligente" (LeJOT-AutoML)

3. A Mágica: Aprendizado Rápido

4. Os Resultados: Economizando Dinheiro

Resumo em uma Frase

Título: LeJOT-AutoML: Engenharia de Atributos Impulsionada por LLM para Previsão de Tempo de Execução de Jobs em Otimização de Custos do Databricks

1. O Problema

2. Metodologia: LeJOT-AutoML

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions