KARL: Knowledge Agents via Reinforcement Learning

O artigo apresenta o KARL, um sistema de agentes de busca empresarial treinados por aprendizado por reforço que, combinando dados sintéticos diversificados e um pipeline de pós-treinamento iterativo, alcança desempenho superior e Pareto-ótimo em tarefas complexas de raciocínio fundamentado, superando modelos fechados de ponta.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa superinteligente, mas que, no começo, é como um estudante universitário muito brilhante, porém um pouco desajeitado: ele sabe ler, mas às vezes se perde em bibliotecas gigantes, lê a mesma página dez vezes sem entender, ou desiste antes de encontrar a resposta certa.

O paper que você enviou apresenta o KARL (Knowledge Agents via Reinforcement Learning), um novo sistema criado pela Databricks que ensina esse "estudante" a se tornar um detetive de elite.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Estudante" Perdido

Antes do KARL, os modelos de IA (como os da OpenAI ou Anthropic) eram ótimos em conversar, mas péssimos em pesquisar em documentos reais de empresas (como contratos, notas de reuniões ou manuais técnicos).

  • A analogia: É como pedir para um professor de história resolver um problema de engenharia. Ele sabe muita teoria, mas não sabe usar as ferramentas certas ou como navegar no "mapa" da informação. Eles tendiam a alucinar (inventar fatos) ou desistir rápido.

2. A Solução: O Treinamento de Detetive (KARL)

Os pesquisadores criaram o KARL usando Reforço por Aprendizado (RL). Pense nisso como um jogo de "Cachorro-Quente" (Hot or Cold) ou um treino de atleta de alta performance.

  • Como funciona: Em vez de apenas ler livros, o modelo é jogado em um "campo de batalha" de perguntas difíceis.
    • Se ele acha a resposta certa, ganha pontos (recompensa).
    • Se ele se perde, inventa coisas ou desiste, perde pontos.
    • Com o tempo, ele aprende não apenas o que responder, mas como pensar: quando parar de procurar, quando verificar uma informação e quando confiar na intuição.

3. Os Três Segredos do KARL

A. O "Ginásio" de Treino Personalizado (KARLBench)

Para treinar um atleta, você não pode usar apenas uma esteira. Você precisa de natação, corrida e levantamento de peso.

  • A analogia: O KARL foi treinado em um "ginásio" chamado KARLBench, que tem 6 tipos de exercícios diferentes:
    1. Encontrar uma pessoa específica em meio a milhões de perfis (como achar uma agulha no palheiro).
    2. Escrever um relatório unindo informações de 50 documentos diferentes.
    3. Fazer contas complexas em planilhas financeiras.
    4. Ler manuais técnicos para consertar um software.
    • O resultado: Ao treinar em todos esses cenários, o KARL aprendeu a ser versátil. Ele não é um especialista em apenas uma coisa; ele é um generalista que sabe lidar com qualquer tipo de documento.

B. O "Estagiário" que Cria os Exercícios (Síntese Agêntica)

Como criar exercícios difíceis o suficiente para treinar um gênio?

  • A analogia: Eles usaram um "estagiário" (um modelo de IA) para criar as perguntas e os casos de teste. Esse estagiário vasculhava os documentos, inventava perguntas difíceis e tentava respondê-las.
    • Se o estagiário acertava fácil demais, a pergunta era descartada (muito fácil).
    • Se ele errava tudo, a pergunta era descartada (impossível).
    • Eles ficavam apenas com as perguntas "no limite", onde o estagiário lutava para responder. Foi nesses exercícios difíceis que o KARL principal aprendeu a melhorar. É como um professor que cria provas baseadas nos erros dos alunos para forçá-los a evoluir.

C. O Treinamento "Off-Policy" (Aprender com os Erros dos Outros)

Aqui está a parte mais técnica, mas com uma analogia simples:

  • A analogia: Imagine que você quer aprender a dirigir.
    • Método antigo (Online): Você sobe no carro, dirige, bate no muro, para, conserta, e tenta de novo. É lento e perigoso.
    • Método do KARL (Off-Policy): O KARL assiste a milhares de horas de gravação de outros motoristas (inclusive os que bateram no muro). Ele analisa os erros e acertos de todos, cria uma estratégia perfeita e só então entra no carro.
    • Isso torna o treinamento muito mais rápido, barato e eficiente. O KARL aprende com "grandes batches" (lotes gigantes) de dados antigos, sem precisar interagir em tempo real o tempo todo.

4. O Resultado: O "Super-Atleta"

Quando colocaram o KARL para competir contra os maiores modelos do mundo (como o GPT-5 e o Claude Opus), aconteceu algo incrível:

  • Custo e Velocidade: O KARL é mais barato e mais rápido. Enquanto os outros modelos gastam muito dinheiro e tempo para pesquisar, o KARL sabe exatamente onde olhar e para quando parar.
  • Qualidade: Com um pouco mais de "esforço computacional" (usando o que chamam de "Parallel Thinking" – pensar em várias direções ao mesmo tempo e escolher a melhor), o KARL superou os modelos mais caros e fechados do mercado.
  • Generalização: O mais impressionante é que o KARL foi treinado em dois tipos de tarefas, mas conseguiu resolver quatro tipos de tarefas que ele nunca viu antes. É como treinar para correr e nadar e, de repente, você se torna ótimo em escalada também.

Resumo Final

O KARL é a prova de que, se você treinar uma IA com os exercícios certos (dados sintéticos difíceis), usando o método de treino certo (Reforço por Aprendizado eficiente) e a ferramenta certa (pesquisa em documentos), você consegue criar um agente que não apenas "conversa", mas trabalha.

Ele é como um funcionário que não precisa de supervisão constante, que sabe ler milhares de páginas em segundos, não se perde em detalhes e entrega o relatório perfeito gastando menos energia do que os concorrentes. É um passo gigante para usar IA em empresas reais, onde os dados são confusos e as respostas precisam ser precisas.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →