Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha talentoso (um modelo de Inteligência Artificial) que quer aprender a cozinhar pratos complexos, como um robô que faz compras online, conserta códigos de computador ou navega na internet sozinho.

O problema é que, até agora, os livros de receitas que os cientistas tinham eram um caos total:

Um livro estava escrito em japonês, outro em código binário, outro em desenhos.
Um usava xícaras de café para medir ingredientes, outro usava colheres de sopa.
Se você quisesse usar o livro do "Chef A" para treinar o "Chef B", você teria que reescrever todo o livro do zero, traduzir cada palavra e mudar todas as medidas. Isso era tão trabalhoso que quase ninguém fazia.

O resultado? Havia milhares de receitas (dados) espalhadas pelo mundo, mas ninguém conseguia usá-las juntas para criar um super-chef.

A Solução: O "Protocolo de Dados de Agente" (ADP)

Os autores deste paper (publicado na conferência ICLR 2026) criaram uma língua universal para receitas de robôs. Eles chamaram isso de Protocolo de Dados de Agente (ADP).

Pense no ADP como um tradutor mágico e um padronizador de medidas:

A "Língua Franca": O ADP pega todas essas receitas bagunçadas (de diferentes fontes, como navegação web, programação, uso de ferramentas) e as traduz para um único formato padrão.
A Estrutura: Em vez de ter dados confusos, o ADP organiza tudo em duas partes simples:
- Ação: O que o robô fez? (Ex: "Cliquei no botão", "Escrevi este código", "Pedi ajuda ao usuário").
- Observação: O que aconteceu depois? (Ex: "A página mudou", "O código funcionou", "O usuário respondeu").
O Tradutor: Eles criaram conversores que pegam os dados antigos e os transformam nessa nova linguagem padrão.

Por que isso é revolucionário?

Antes, se você tivesse 100 receitas e 10 tipos de robôs diferentes, você teria que criar 1.000 traduções diferentes (100 x 10). Era um trabalho gigantesco e repetitivo.

Com o ADP, o processo se torna linear:

Você traduz as 100 receitas para o "idioma ADP" uma única vez.
Depois, cada um dos 10 robôs só precisa de um pequeno adaptador para ler o ADP.
Resultado: O trabalho cai de 1.000 passos para apenas 110 passos. É como trocar de trocar 100 cabos diferentes por um único cabo USB-C que serve para tudo.

O Resultado na Prática

Os pesquisadores pegaram 13 conjuntos de dados diferentes (que antes eram incompatíveis) e os unificaram em um único "super-conjunto" de 1,3 milhão de exemplos.

Eles treinaram seus robôs com essa mistura de dados e o resultado foi impressionante:

Melhoria de 20%: Os robôs ficaram, em média, 20% melhores do que antes, apenas por terem acesso a essa variedade de dados.
Versatilidade: Um robô treinado com essa mistura aprendeu a fazer de tudo um pouco melhor. Ele não ficou bom apenas em programação ou apenas em navegar na web; ele aprendeu a generalizar.
Recorde: Em testes de ponta, eles bateram ou empataram com os melhores modelos do mundo, sem precisar treinar especificamente para cada tarefa.

A Analogia Final

Imagine que, antes do ADP, treinar um robô era como tentar ensinar alguém a dirigir usando apenas manuais de carros diferentes: um manual em alemão para um carro alemão, outro em chinês para um carro chinês, e você não podia misturar as lições.

O ADP é como pegar todos esses manuais, traduzi-los para o português, padronizar os termos (chamar tudo de "freio", "volante", "pisca") e criar um único "Curso de Direção Universal". Agora, qualquer pessoa (ou robô) pode pegar esse curso e aprender a dirigir qualquer carro, de forma mais rápida e eficiente.

Em resumo: O paper não criou novos dados do zero. Ele criou a ponte que permitiu que todos os dados existentes, que antes estavam presos em silos isolados, finalmente conversassem entre si, criando robôs muito mais inteligentes e capazes.

Each language version is independently generated for its own context, not a direct translation.

1. Problema Identificado

O artigo identifica que, apesar da abundância de dados brutos para o treinamento de agentes de IA (LLMs), a supervisão de ajuste fino (SFT) em larga escala permanece rara na pesquisa acadêmica. O gargalo não é a falta de dados, mas sim a fragmentação e a falta de padronização.

Heterogeneidade de Formatos: Os conjuntos de dados existentes (como Mind2Web, SWE-Gym, AgentInstruct, etc.) utilizam representações, espaços de ação e estruturas de observação inconsistentes. Alguns usam HTML bruto, outros árvores de acessibilidade, e outros formatos proprietários de ferramentas.
Custo de Engenharia Quadrático: Para integrar um novo conjunto de dados a um novo framework de agente (harness), os pesquisadores precisam escrever conversores personalizados para cada par (Dados → Agente). Com $D$ conjuntos de dados e $A$ frameworks, o esforço de engenharia é quadrático ( $O(D \times A)$ ), tornando a integração lenta, propensa a erros e difícil de escalar.
Dificuldade de Análise: A falta de um formato unificado impede comparações sistemáticas e análises quantitativas entre diferentes fontes de dados, limitando a compreensão da qualidade e cobertura dos dados disponíveis.

2. Metodologia: O Protocolo de Dados de Agente (ADP)

Para resolver esses desafios, os autores introduzem o Agent Data Protocol (ADP), uma linguagem de representação leve que atua como uma "interlíngua" entre datasets heterogêneos e pipelines de treinamento unificados.

2.1. Design e Arquitetura

O ADP é implementado como esquemas Pydantic e baseia-se em três princípios:

Simplicidade: Estrutura intuitiva que elimina a necessidade de engenharia específica por dataset.
Padronização: Unifica todos os dados em um formato comum.
Expressividade: Capaz de capturar trajetórias complexas sem perda de informação.

A unidade fundamental do ADP é o objeto Trajectory, composto por:

ID: Identificador único.
Conteúdo: Uma sequência alternada de Ações e Observações.
Detalhes: Metadados flexíveis.

Tipos de Ações (Actions):

API Actions: Chamadas de função com parâmetros estruturados (ex: goto(url=...)).
Code Actions: Geração e execução de código em linguagens específicas (ex: Python).
Message Actions: Comunicação em linguagem natural entre agente e usuário.

Tipos de Observações (Observations):

Text Observations: Informações textuais de fontes como instruções do usuário ou feedback do ambiente.
Web Observations: Estado de páginas web, incluindo HTML bruto, árvore de acessibilidade (axtree), URL e tamanho da viewport.

2.2. Pipeline de Conversão

O ADP introduz um pipeline de conversão de três estágios que transforma dados brutos em formatos prontos para SFT:

Raw → ADP: Converte o formato original de cada dataset para o esquema ADP padronizado.
ADP → SFT: Converte o ADP unificado para o formato específico de cada framework de agente (ex: OpenHands, SWE-Agent, AgentLab).
Garantia de Qualidade: Validação automatizada para verificar formatos de chamadas de ferramentas, presença de raciocínio (thoughts) e estrutura da conversa.

Impacto na Complexidade:
O ADP reduz o esforço de engenharia de quadrático ( $O(D \times A)$ ) para linear ( $O(D + A)$ ). Cada dataset é convertido uma vez para o ADP, e cada agente precisa apenas de um script de conversão do ADP para o seu formato específico.

3. Principais Contribuições

O ADP (Protocolo): Uma especificação aberta e expressiva para dados de agentes, cobrindo tarefas de codificação, engenharia de software, uso de ferramentas e navegação web.
Conversores e Dataset Unificado: Os autores desenvolveram conversores para 13 datasets existentes (incluindo SWE-Gym, Mind2Web, Orca AgentInstruct, etc.) e lançaram o ADP Dataset V1, contendo 1,3 milhão de trajetórias de treinamento.
Análise Cruzada de Dados: A padronização permitiu a primeira análise sistemática de grandes volumes de dados de agentes, revelando tendências como a alta cobertura de "pensamentos" (function thoughts) em mais de 90% dos datasets e a distribuição variada de ações (API vs. Código) dependendo do domínio.
Open Source: Todo o código, esquemas e dados foram liberados publicamente para fomentar a comunidade.

4. Resultados Experimentais

Os autores realizaram experimentos de SFT utilizando modelos da família Qwen2.5-Coder-Instruct (7B, 14B e 32B) em três frameworks de agentes: OpenHands, SWE-Agent e AgentLab.

4.1. Desempenho Geral

O treinamento com dados unificados via ADP resultou em ganhos significativos em comparação aos modelos base e a ajustes finos em datasets específicos:

Ganho Médio: Aumento de aproximadamente 20% em relação aos modelos base.
SWE-Bench (Verified):
- Modelo 7B: De 0,4% para 20,2% (com SWE-Agent).
- Modelo 14B: De 2,0% para 34,4%, superando o desempenho do Claude 3.5 Sonnet (33,6%) neste benchmark específico.
- Modelo 32B: Alcançou 40,3%.
WebArena: Ganhos consistentes, com o modelo 7B atingindo 21,0%.
AgentBench e GAIA: Melhorias substanciais em tarefas de sistemas operacionais e assistentes gerais.

4.2. Transferência de Tarefa (Cross-Task Transfer)

Um dos achados mais importantes é que o treinamento com o corpus misto do ADP supera o ajuste fino em datasets específicos (single-domain):

Em benchmarks de Engenharia de Software (SWE-Bench), o treinamento apenas com dados de web (Go-Browse) ou apenas com dados de código (SWE-smith) foi inferior ao treinamento com o corpus ADP completo.
O ADP demonstrou generalização superior, evitando o "catastrophic forgetting" e permitindo que o agente aprenda habilidades transversais (ex: raciocínio lógico de navegação web aplicado a tarefas de código).

4.3. Eficiência de Adaptação

A análise de linhas de código (LOC) mostrou que, sem o ADP, a conversão de 13 datasets para 100 harnesses exigiria ~489.200 LOC. Com o ADP, esse número cai para ~12.592 LOC, uma redução drástica que facilita a adoção de novos datasets e frameworks.

5. Significância e Conclusão

O artigo demonstra que a padronização de dados é um fator crítico e subexplorado para o avanço de agentes de IA. O Agent Data Protocol (ADP):

Democratiza o treinamento: Permite que pesquisadores sem recursos massivos para curadoria de dados acessem e utilizem grandes volumes de dados heterogêneos.
Acelera a pesquisa: Remove a barreira de engenharia para combinar datasets, permitindo experimentos mais rápidos e reprodutíveis.
Melhora o estado da arte: Prova que um corpus unificado e diversificado pode gerar agentes com desempenho de ponta (SOTA) em múltiplos domínios sem necessidade de ajuste fino específico por domínio.

Os autores propõem o ADP como um passo fundamental para a próxima geração de agentes, sugerindo futuras extensões para multimodalidade (imagens, gravações de tela) e a aplicação do conceito de "protocolo" também para avaliação e ambientes de teste.