V1V_1: Unifying Generation and Self-Verification for Parallel Reasoners

O artigo apresenta a V1V_1, uma estrutura que unifica geração e auto-verificação por meio de classificação em pares, utilizando o algoritmo V1V_1-Infer para alocar dinamicamente recursos de verificação e o treinamento V1V_1-PairRL para otimizar conjuntamente o gerador e o verificador, resultando em ganhos significativos de desempenho e eficiência em tarefas complexas de raciocínio e geração de código.

Harman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um time de 100 chefs tentando resolver um problema de culinária complexo, como criar o prato perfeito para um jantar de gala. O objetivo é que um deles acerte o prato.

Aqui está o que a pesquisa V1 descobriu e como ela funciona, explicado de forma simples:

O Problema: O "Chefe" Confuso

Normalmente, quando a Inteligência Artificial (IA) tenta resolver problemas difíceis, ela gera várias soluções (como os 100 chefs) e depois precisa escolher a melhor.

  • O jeito antigo (Pontuação Individual): O "Chefe" (a IA) olha para cada prato individualmente e dá uma nota de 1 a 10.
    • O erro: O Chefe fica confuso. Ele pode dar nota 10 para um prato que parece bonito, mas está estragado, e nota 8 para um prato incrível. É como tentar julgar a altura de uma pessoa sem ter ninguém ao lado para comparar. Ele não tem uma "régua" clara.
  • O jeito de "Agrupar" (Juntar tudo): Outro método tenta misturar os 100 pratos em um "super-prato".
    • O erro: Ao misturar tudo, você acaba perdendo os ingredientes especiais. O prato final fica medíocre e perde a criatividade original.

A Solução V1: O Torneio de "Cara a Cara"

A equipe do V1 descobriu que a IA é muito melhor em comparar duas coisas ao mesmo tempo do que em julgar uma coisa sozinha. É como dizer: "Qual destes dois pratos tem mais sal?" é muito mais fácil para um humano (ou IA) do que dizer "Quantos gramas de sal tem neste prato?".

O V1 usa duas ferramentas principais:

1. V1-Infer (O Árbitro Inteligente)

Em vez de o Chefe julgar os 100 pratos um por um, ele organiza um torneio de tênis.

  • Como funciona: Ele pega dois pratos e pergunta: "Qual é melhor?".
  • A mágica: O sistema é esperto. Ele não gasta tempo comparando pratos óbvios (como comparar um prato queimado com um prato perfeito). Ele foca nos empates apertados. Se dois pratos parecem muito parecidos, o sistema pede para o Chefe olhar com mais atenção.
  • Resultado: Com menos esforço, o sistema descobre qual é o verdadeiro campeão entre os 100, sem precisar julgar todos contra todos. É como usar um mapa de calor para saber onde está a dúvida, em vez de perguntar a todos.

2. V1-PairRL (O Treinador que Ensina a Comparar)

Aqui, eles não usam apenas um Chefe que já nasceu sabendo. Eles treinam a IA para ser tanto o Cozinheiro quanto o Júri.

  • O Treino: A IA gera um prato, depois gera outro, e o próprio "Júri" interno dela compara os dois.
  • A Evolução: Conforme a IA aprende a cozinhar pratos melhores, o "Júri" interno também aprende a julgar melhor, porque está comparando pratos que estão ficando cada vez mais sofisticados. Eles evoluem juntos.
  • Resultado: A IA não apenas gera respostas melhores, mas também aprende a identificar a resposta certa com muito mais precisão do que antes.

Por que isso é importante? (A Analogia Final)

Pense em tentar encontrar uma agulha no palheiro.

  • Método Antigo: Você pega cada palha, olha para ela e diz: "Isso parece uma agulha?". Você pode se enganar e achar que um palho é uma agulha.
  • Método V1: Você pega dois pedaços de palha e pergunta: "Qual deles parece mais com uma agulha?". É muito mais fácil notar a diferença quando você coloca as coisas lado a lado.

Resumo da Ópera:
O V1 ensina a Inteligência Artificial a não confiar apenas na "intuição" de julgar uma resposta sozinha. Em vez disso, ele a faz colocar as respostas em uma "arena" de comparação direta. Isso permite que a IA resolva problemas de matemática e programação muito mais difíceis, encontrando a resposta certa mesmo quando gera centenas de tentativas, gastando menos energia e tempo no processo.

É como trocar um juiz que dá notas soltas por um torneio esportivo onde o vencedor é decidido por quem realmente ganha a disputa.