KARL: Knowledge Agents via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa superinteligente, mas que, no começo, é como um estudante universitário muito brilhante, porém um pouco desajeitado: ele sabe ler, mas às vezes se perde em bibliotecas gigantes, lê a mesma página dez vezes sem entender, ou desiste antes de encontrar a resposta certa.

O paper que você enviou apresenta o KARL (Knowledge Agents via Reinforcement Learning), um novo sistema criado pela Databricks que ensina esse "estudante" a se tornar um detetive de elite.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Estudante" Perdido

Antes do KARL, os modelos de IA (como os da OpenAI ou Anthropic) eram ótimos em conversar, mas péssimos em pesquisar em documentos reais de empresas (como contratos, notas de reuniões ou manuais técnicos).

A analogia: É como pedir para um professor de história resolver um problema de engenharia. Ele sabe muita teoria, mas não sabe usar as ferramentas certas ou como navegar no "mapa" da informação. Eles tendiam a alucinar (inventar fatos) ou desistir rápido.

2. A Solução: O Treinamento de Detetive (KARL)

Os pesquisadores criaram o KARL usando Reforço por Aprendizado (RL). Pense nisso como um jogo de "Cachorro-Quente" (Hot or Cold) ou um treino de atleta de alta performance.

Como funciona: Em vez de apenas ler livros, o modelo é jogado em um "campo de batalha" de perguntas difíceis.
- Se ele acha a resposta certa, ganha pontos (recompensa).
- Se ele se perde, inventa coisas ou desiste, perde pontos.
- Com o tempo, ele aprende não apenas o que responder, mas como pensar: quando parar de procurar, quando verificar uma informação e quando confiar na intuição.

3. Os Três Segredos do KARL

A. O "Ginásio" de Treino Personalizado (KARLBench)

Para treinar um atleta, você não pode usar apenas uma esteira. Você precisa de natação, corrida e levantamento de peso.

A analogia: O KARL foi treinado em um "ginásio" chamado KARLBench, que tem 6 tipos de exercícios diferentes:
1. Encontrar uma pessoa específica em meio a milhões de perfis (como achar uma agulha no palheiro).
2. Escrever um relatório unindo informações de 50 documentos diferentes.
3. Fazer contas complexas em planilhas financeiras.
4. Ler manuais técnicos para consertar um software.
- O resultado: Ao treinar em todos esses cenários, o KARL aprendeu a ser versátil. Ele não é um especialista em apenas uma coisa; ele é um generalista que sabe lidar com qualquer tipo de documento.

B. O "Estagiário" que Cria os Exercícios (Síntese Agêntica)

Como criar exercícios difíceis o suficiente para treinar um gênio?

A analogia: Eles usaram um "estagiário" (um modelo de IA) para criar as perguntas e os casos de teste. Esse estagiário vasculhava os documentos, inventava perguntas difíceis e tentava respondê-las.
- Se o estagiário acertava fácil demais, a pergunta era descartada (muito fácil).
- Se ele errava tudo, a pergunta era descartada (impossível).
- Eles ficavam apenas com as perguntas "no limite", onde o estagiário lutava para responder. Foi nesses exercícios difíceis que o KARL principal aprendeu a melhorar. É como um professor que cria provas baseadas nos erros dos alunos para forçá-los a evoluir.

C. O Treinamento "Off-Policy" (Aprender com os Erros dos Outros)

Aqui está a parte mais técnica, mas com uma analogia simples:

A analogia: Imagine que você quer aprender a dirigir.
- Método antigo (Online): Você sobe no carro, dirige, bate no muro, para, conserta, e tenta de novo. É lento e perigoso.
- Método do KARL (Off-Policy): O KARL assiste a milhares de horas de gravação de outros motoristas (inclusive os que bateram no muro). Ele analisa os erros e acertos de todos, cria uma estratégia perfeita e só então entra no carro.
- Isso torna o treinamento muito mais rápido, barato e eficiente. O KARL aprende com "grandes batches" (lotes gigantes) de dados antigos, sem precisar interagir em tempo real o tempo todo.

4. O Resultado: O "Super-Atleta"

Quando colocaram o KARL para competir contra os maiores modelos do mundo (como o GPT-5 e o Claude Opus), aconteceu algo incrível:

Custo e Velocidade: O KARL é mais barato e mais rápido. Enquanto os outros modelos gastam muito dinheiro e tempo para pesquisar, o KARL sabe exatamente onde olhar e para quando parar.
Qualidade: Com um pouco mais de "esforço computacional" (usando o que chamam de "Parallel Thinking" – pensar em várias direções ao mesmo tempo e escolher a melhor), o KARL superou os modelos mais caros e fechados do mercado.
Generalização: O mais impressionante é que o KARL foi treinado em dois tipos de tarefas, mas conseguiu resolver quatro tipos de tarefas que ele nunca viu antes. É como treinar para correr e nadar e, de repente, você se torna ótimo em escalada também.

Resumo Final

O KARL é a prova de que, se você treinar uma IA com os exercícios certos (dados sintéticos difíceis), usando o método de treino certo (Reforço por Aprendizado eficiente) e a ferramenta certa (pesquisa em documentos), você consegue criar um agente que não apenas "conversa", mas trabalha.

Ele é como um funcionário que não precisa de supervisão constante, que sabe ler milhares de páginas em segundos, não se perde em detalhes e entrega o relatório perfeito gastando menos energia do que os concorrentes. É um passo gigante para usar IA em empresas reais, onde os dados são confusos e as respostas precisam ser precisas.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda o desafio de criar agentes de conhecimento capazes de realizar raciocínio fundamentado (grounded reasoning). Diferente de tarefas comuns como matemática ou codificação, o raciocínio fundamentado exige que o agente acesse, recupere e raciocine sobre grandes volumes de dados proprietários e externos que não estão nos parâmetros do modelo.

Os desafios principais identificados são:

Diversidade de Habilidades: Tarefas reais exigem múltiplas habilidades (busca de entidades com restrições, síntese de relatórios, raciocínio numérico em tabelas, recuperação exaustiva de fatos), e modelos otimizados para uma tarefa falham em outras.
Falta de Dados de Treinamento de Alta Qualidade: Dados sintéticos gerados por prompts estáticos ou agentes simples muitas vezes carecem de "fundamentação" (estar ancorado em evidências reais) ou são fáceis demais.
Ineficiência no Treinamento e Inferência: Métodos existentes de RL (como GRPO online) são instáveis em larga escala, custosos e sensíveis a discrepâncias entre o motor de treinamento e o de inferência.
Custo e Latência: Modelos de ponta (como Claude Opus e GPT-5) são caros e lentos, tornando-se inviáveis para aplicações empresariais em escala.

2. Metodologia

A Databricks propõe o KARL, um sistema que combina síntese de dados agêntica, aprendizado por reforço (RL) off-policy iterativo e escalabilidade no tempo de execução (test-time compute).

A. KARLBench (Benchmarks)

Foi criada uma suíte de avaliação chamada KARLBench, cobrindo seis regimes de busca distintos para testar a generalização:

Busca de Entidade Orientada a Restrições: Encontrar uma entidade que satisfaça múltiplos atributos (ex: BrowseComp-Plus).
Síntese de Relatórios Cross-Documento: Integrar achados dispersos em um relatório coeso (ex: TREC-Biogen).
Raciocínio Numérico em Tabelas: Navegar em relatórios financeiros longos (ex: FinanceBench).
Recuperação Exaustiva de Entidades: Listar todas as entidades que atendem a uma condição (ex: QAMPARI).
Raciocínio Procedural Técnico: Resolver problemas de software baseados em documentação (ex: FreshStack).
Agregação de Fatos em Notas Internas: Buscar em dados corporativos não estruturados (ex: PMBench).

B. Pipeline de Síntese Agêntica

Para superar a escassez de dados de treinamento, os autores desenvolveram um pipeline de síntese iterativo:

Geração de Dados: Um agente sintetizador explora o corpus usando busca vetorial para criar pares pergunta-resposta fundamentados.
Filtragem de Qualidade: Um agente "Solver" tenta responder às perguntas geradas. Apenas pares onde o solver tem uma taxa de acerto intermediária (nem muito fácil, nem impossível) são mantidos.
Verificação de Fatos: Um filtro de qualidade elimina ambiguidades e erros factuais.
Bootstrapping: O processo é iterativo; o modelo treinado é usado para gerar dados para a próxima iteração, melhorando a qualidade dos dados ao longo do tempo.

C. Treinamento via RL Off-Policy (OAPL)

O núcleo do treinamento é o OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference), uma abordagem de RL off-policy de grandes lotes:

Objetivo: Otimiza a política $\pi$ para maximizar a recompensa com regularização KL em relação a uma referência $\pi_{ref}$ .
Estabilidade: Ao contrário do RL online (GRPO), o OAPL é robusto a discrepâncias entre o motor de treinamento e o de inferência (ex: vLLM), não exigindo heurísticas complexas como clipped importance weighting ou exclusão de dados.
Multi-tarefa: O modelo é treinado simultaneamente em múltiplas tarefas (ex: BrowseComp-Plus e TREC-Biogen) combinando as funções de perda, o que promove generalização para tarefas fora da distribuição (OOD).
Iteração: O processo é repetido (até 3 iterações), onde o modelo atualizado se torna a nova referência para gerar mais dados.

D. Escalonamento no Tempo de Execução (Test-Time Compute - TTC)

O sistema emprega duas estratégias para melhorar o desempenho na inferência:

Pensamento Paralelo (Parallel Thinking): Gera $N$ trajetórias (rollouts) independentes em paralelo e usa um agente agregador para sintetizar uma resposta final, superando a simples votação por maioria.
Busca Guiada por Valor (Value-Guided Search - VGS): Treina um modelo de valor pequeno para prever a probabilidade de sucesso de uma trajetória parcial, guiando a busca em árvore para os ramos mais promissores.

E. Infraestrutura de Agente

O sistema utiliza um harness interno ("aroll") que gerencia o contexto de longo prazo através de compressão de contexto treinada end-to-end. Quando o histórico de interações excede um limite, o próprio agente resume o histórico, permitindo buscas de longo horizonte sem perder informações cruciais.

3. Principais Contribuições

KARLBench: Uma suíte de avaliação abrangente e diversificada para agentes de conhecimento, incluindo um benchmark proprietário (PMBench) para cenários corporativos reais.
Síntese de Dados Agêntica Iterativa: Um método para gerar dados de treinamento de alta qualidade, fundamentados e difíceis, que melhora iterativamente com a capacidade do modelo.
OAPL (RL Off-Policy): Um novo paradigma de pós-treinamento que é eficiente em amostras, estável para modelos MoE (Mixture of Experts) em larga escala e naturalmente adaptável ao treinamento multi-tarefa.
Generalização e Pareto-Optimalidade: Demonstração de que o treinamento multi-tarefa com RL gera agentes que generalizam melhor para tarefas não vistas do que modelos treinados em tarefas únicas ou via distilação.

4. Resultados

O KARL foi comparado com modelos proprietários de ponta (Claude 4.5/4.6, GPT-5/5.2) e modelos open-source (GLM 4.5 Air, Qwen 3.5).

Desempenho: O KARL alcança desempenho state-of-the-art no KARLBench. Com 10 rollouts paralelos, ele iguala ou supera o Claude Opus 4.6 em qualidade.
Eficiência (Custo vs. Qualidade): O KARL é Pareto-ótimo. Ele atinge a mesma qualidade que modelos caros com uma fração do custo (menos de $0.10 por consulta para pontuações acima de 55) e latência significativamente menor.
Generalização: O modelo treinado em duas tarefas (BrowseComp-Plus e TREC-Biogen) generaliza excepcionalmente bem para as outras quatro tarefas do benchmark (OOD), superando modelos especializados em tarefas únicas.
Comparação com Distilação: O RL multi-tarefa supera a distilação de especialistas (SFT) em tarefas fora da distribuição, indicando que o RL aprende habilidades de busca gerais, não apenas imitação de tarefas específicas.
Comportamento: O RL ensina o agente a ser mais eficiente, reduzindo o número de passos de busca desnecessários e melhorando a diversidade de documentos recuperados.

5. Significado e Impacto

O trabalho demonstra que é possível construir agentes de conhecimento corporativos de alto desempenho e baixo custo combinando:

Dados sintéticos gerados por agentes que evoluem com o modelo.
Treinamento multi-tarefa via RL off-policy robusto.
Escalonamento inteligente no tempo de execução.

Isso sugere que a barreira para a adoção de agentes de IA em empresas (finanças, direito, saúde) pode ser superada, permitindo raciocínio fundamentado em dados proprietários sem a dependência de modelos fechados extremamente caros. O estudo também destaca que o RL não apenas "afina" o modelo, mas expande sua capacidade de resolver problemas que o modelo base não conseguia resolver, mesmo com múltiplas tentativas.

Em suma, o KARL estabelece um novo padrão para a eficiência e eficácia de agentes de busca e raciocínio, provando que a combinação de dados sintéticos curados e RL multi-tarefa é um caminho viável para a próxima geração de agentes de IA.