Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabalho apresenta o Protocolo de Dados de Agentes (ADP), uma linguagem de representação leve que unifica diversos conjuntos de dados de agentes em um formato padronizado, permitindo o ajuste fino eficaz de modelos de linguagem e alcançando desempenho de ponta em tarefas como codificação, navegação e uso de ferramentas sem necessidade de ajuste específico por domínio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh, Ziru Chen, Boyu Gou, Tianbao Xie, Yiheng Xu, Danyang Zhang, Apurva Gandhi, Fan Yang, Joseph Liu, Tianyue Ou, Zhihao Yuan, Frank Xu, Shuyan Zhou, Xingyao Wang, Xiang Yue, Tao Yu, Huan Sun, Yu Su, Graham Neubig

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha talentoso (um modelo de Inteligência Artificial) que quer aprender a cozinhar pratos complexos, como um robô que faz compras online, conserta códigos de computador ou navega na internet sozinho.

O problema é que, até agora, os livros de receitas que os cientistas tinham eram um caos total:

  • Um livro estava escrito em japonês, outro em código binário, outro em desenhos.
  • Um usava xícaras de café para medir ingredientes, outro usava colheres de sopa.
  • Se você quisesse usar o livro do "Chef A" para treinar o "Chef B", você teria que reescrever todo o livro do zero, traduzir cada palavra e mudar todas as medidas. Isso era tão trabalhoso que quase ninguém fazia.

O resultado? Havia milhares de receitas (dados) espalhadas pelo mundo, mas ninguém conseguia usá-las juntas para criar um super-chef.

A Solução: O "Protocolo de Dados de Agente" (ADP)

Os autores deste paper (publicado na conferência ICLR 2026) criaram uma língua universal para receitas de robôs. Eles chamaram isso de Protocolo de Dados de Agente (ADP).

Pense no ADP como um tradutor mágico e um padronizador de medidas:

  1. A "Língua Franca": O ADP pega todas essas receitas bagunçadas (de diferentes fontes, como navegação web, programação, uso de ferramentas) e as traduz para um único formato padrão.
  2. A Estrutura: Em vez de ter dados confusos, o ADP organiza tudo em duas partes simples:
    • Ação: O que o robô fez? (Ex: "Cliquei no botão", "Escrevi este código", "Pedi ajuda ao usuário").
    • Observação: O que aconteceu depois? (Ex: "A página mudou", "O código funcionou", "O usuário respondeu").
  3. O Tradutor: Eles criaram conversores que pegam os dados antigos e os transformam nessa nova linguagem padrão.

Por que isso é revolucionário?

Antes, se você tivesse 100 receitas e 10 tipos de robôs diferentes, você teria que criar 1.000 traduções diferentes (100 x 10). Era um trabalho gigantesco e repetitivo.

Com o ADP, o processo se torna linear:

  • Você traduz as 100 receitas para o "idioma ADP" uma única vez.
  • Depois, cada um dos 10 robôs só precisa de um pequeno adaptador para ler o ADP.
  • Resultado: O trabalho cai de 1.000 passos para apenas 110 passos. É como trocar de trocar 100 cabos diferentes por um único cabo USB-C que serve para tudo.

O Resultado na Prática

Os pesquisadores pegaram 13 conjuntos de dados diferentes (que antes eram incompatíveis) e os unificaram em um único "super-conjunto" de 1,3 milhão de exemplos.

Eles treinaram seus robôs com essa mistura de dados e o resultado foi impressionante:

  • Melhoria de 20%: Os robôs ficaram, em média, 20% melhores do que antes, apenas por terem acesso a essa variedade de dados.
  • Versatilidade: Um robô treinado com essa mistura aprendeu a fazer de tudo um pouco melhor. Ele não ficou bom apenas em programação ou apenas em navegar na web; ele aprendeu a generalizar.
  • Recorde: Em testes de ponta, eles bateram ou empataram com os melhores modelos do mundo, sem precisar treinar especificamente para cada tarefa.

A Analogia Final

Imagine que, antes do ADP, treinar um robô era como tentar ensinar alguém a dirigir usando apenas manuais de carros diferentes: um manual em alemão para um carro alemão, outro em chinês para um carro chinês, e você não podia misturar as lições.

O ADP é como pegar todos esses manuais, traduzi-los para o português, padronizar os termos (chamar tudo de "freio", "volante", "pisca") e criar um único "Curso de Direção Universal". Agora, qualquer pessoa (ou robô) pode pegar esse curso e aprender a dirigir qualquer carro, de forma mais rápida e eficiente.

Em resumo: O paper não criou novos dados do zero. Ele criou a ponte que permitiu que todos os dados existentes, que antes estavam presos em silos isolados, finalmente conversassem entre si, criando robôs muito mais inteligentes e capazes.