EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um estagiário muito inteligente, mas inexperiente, a trabalhar no atendimento ao cliente de uma grande loja de computadores.

A maioria das empresas de IA hoje treina esses "estagiários" (os agentes de IA) em simulações de brinquedo. É como se você ensinasse o estagiário a resolver um quebra-cabeça de 5 peças em uma sala branca e vazia. Ele fica ótimo naquele quebra-cabeça específico, mas quando chega no mundo real, cheio de barulho, clientes irritados e peças faltando, ele trava.

Este artigo, chamado Corecraft, propõe uma abordagem diferente. Em vez de um quebra-cabeça de brinquedo, eles criaram um simulador de realidade virtual ultra-realista de uma empresa inteira.

Aqui está a explicação do que eles fizeram, passo a passo:

1. O Cenário: A "Fábrica de Caos" Controlada

Os pesquisadores criaram um ambiente chamado Corecraft. Pense nele como um simulador de voo para atendentes de suporte, mas em vez de aviões, é uma loja de peças de PC.

O Mundo: Eles construíram uma empresa fictícia com mais de 2.500 "pessoas" (clientes), pedidos, produtos, regras de garantia e ferramentas. Tudo está conectado. Se você muda um preço, afeta o estoque, que afeta o pedido, que afeta o cliente.
A Missão: A IA não pode apenas "adivinhar". Ela precisa usar ferramentas reais (como bancos de dados) para resolver problemas complexos, como: "O cliente quer trocar uma peça, mas o pedido foi feito há 35 dias e a peça não tem mais estoque. O que fazer?"

2. O Problema: Os "Gênios" que Falham no Mundo Real

Eles testaram os modelos de IA mais famosos do mundo (como Claude, GPT e Gemini) nesse simulador.

O Resultado: Mesmo os "gênios" da tecnologia acertaram menos de 35% das tarefas.
Por que falharam? Eles tinham vícios de comportamento.
- Exemplo: Se precisavam buscar um produto, eles faziam uma busca genérica em vez de olhar o pedido específico do cliente primeiro.
- Exemplo: Se a busca retornava 10 resultados (o limite máximo), eles paravam, achando que era tudo, mesmo que o cliente tivesse 20 pedidos. Eles não tinham "persistência".

3. A Solução: Treinamento com "Mestre Rigoroso"

Em vez de apenas deixar o estagiário tentar e errar, eles usaram uma técnica de aprendizado chamada Reforço (RL) com uma regra de ouro: Rubricas de Especialistas.

Imagine um treinador de esportes que não apenas grita "corra", mas tem uma planilha detalhada:

✅ Você verificou o histórico do cliente?
✅ Você aplicou a regra de garantia corretamente?
✅ Sua resposta foi educada e clara?

Se o agente erra um detalhe, ele recebe uma "punição" (recompensa baixa). Se acerta tudo, ganha pontos. Eles treinaram o modelo GLM 4.6 por apenas um dia (uma "época" de treinamento) usando esse método.

4. O Milagre: O que Aprendeu no Simulador, Serve no Mundo Real?

A grande pergunta era: "Será que a IA aprendeu apenas a jogar esse jogo específico de loja de computadores, ou ela aprendeu a pensar melhor?"

A resposta foi um SIM estrondoso.
Depois de treinar apenas no simulador de loja de computadores, a IA ficou muito melhor em outras coisas que ela nunca viu antes:

Funções Paralelas: Ficou 4,5% melhor em fazer várias tarefas ao mesmo tempo.
Atendimento ao Cliente: Ficou 7,4% melhor em lidar com clientes de varejo (mesmo que não fosse de computadores).
Uso de Ferramentas: Ficou 6,8% melhor em usar softwares complexos de TI e bancos de dados.

A Analogia Final: O Atleta

Pense na IA como um atleta.

Treino Antigo: O atleta treinava apenas em uma esteira de corrida perfeita, sem vento, sem obstáculos. Ele ficava rápido na esteira, mas tropeçava no asfalto.
Treino Corecraft: O atleta treinou em um parque de obstáculos real, com lama, pedras, vento e outros atletas correndo ao lado.
Resultado: Quando esse atleta foi para a pista de corrida oficial (os testes externos), ele não só correu mais rápido, mas também sabia como se equilibrar na lama e como lidar com o vento.

Conclusão Simples

O papel nos diz que para criar IAs que funcionam de verdade no trabalho, não basta dar a elas mais dados ou mais poder de cálculo. É preciso treiná-las em ambientes realistas, complexos e cheios de regras, onde elas aprendam a lidar com o caos e a seguir processos profissionais.

O segredo não foi o modelo de IA em si, mas a qualidade do "campo de treinamento". Um ambiente realista ensina habilidades que se transferem para qualquer lugar, transformando um "robô de teste" em um "funcionário competente".

EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

1. O Cenário: A "Fábrica de Caos" Controlada

2. O Problema: Os "Gênios" que Falham no Mundo Real

3. A Solução: Treinamento com "Mestre Rigoroso"

4. O Milagre: O que Aprendeu no Simulador, Serve no Mundo Real?

A Analogia Final: O Atleta

Conclusão Simples

1. O Problema

2. Metodologia

O Ambiente: Corecraft

Treinamento e Arquitetura

3. Principais Contribuições

4. Resultados

Desempenho In-Distribution (Corecraft)

Generalização Out-of-Distribution (Transfer Learning)

Análise de Comportamento Aprendido

5. Significado e Conclusão

EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

1. O Cenário: A "Fábrica de Caos" Controlada

2. O Problema: Os "Gênios" que Falham no Mundo Real

3. A Solução: Treinamento com "Mestre Rigoroso"

4. O Milagre: O que Aprendeu no Simulador, Serve no Mundo Real?

A Analogia Final: O Atleta

Conclusão Simples

1. O Problema

2. Metodologia

O Ambiente: Corecraft

Treinamento e Arquitetura

3. Principais Contribuições

4. Resultados

Desempenho In-Distribution (Corecraft)

Generalização Out-of-Distribution (Transfer Learning)

Análise de Comportamento Aprendido

5. Significado e Conclusão

Mais como este

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Better Understandings and Configurations in MaxSAT Local Search Solvers via Anytime Performance Analysis

Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya