$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um time de 100 chefs tentando resolver um problema de culinária complexo, como criar o prato perfeito para um jantar de gala. O objetivo é que um deles acerte o prato.

Aqui está o que a pesquisa V1 descobriu e como ela funciona, explicado de forma simples:

O Problema: O "Chefe" Confuso

Normalmente, quando a Inteligência Artificial (IA) tenta resolver problemas difíceis, ela gera várias soluções (como os 100 chefs) e depois precisa escolher a melhor.

O jeito antigo (Pontuação Individual): O "Chefe" (a IA) olha para cada prato individualmente e dá uma nota de 1 a 10.
- O erro: O Chefe fica confuso. Ele pode dar nota 10 para um prato que parece bonito, mas está estragado, e nota 8 para um prato incrível. É como tentar julgar a altura de uma pessoa sem ter ninguém ao lado para comparar. Ele não tem uma "régua" clara.
O jeito de "Agrupar" (Juntar tudo): Outro método tenta misturar os 100 pratos em um "super-prato".
- O erro: Ao misturar tudo, você acaba perdendo os ingredientes especiais. O prato final fica medíocre e perde a criatividade original.

A Solução V1: O Torneio de "Cara a Cara"

A equipe do V1 descobriu que a IA é muito melhor em comparar duas coisas ao mesmo tempo do que em julgar uma coisa sozinha. É como dizer: "Qual destes dois pratos tem mais sal?" é muito mais fácil para um humano (ou IA) do que dizer "Quantos gramas de sal tem neste prato?".

O V1 usa duas ferramentas principais:

1. V1-Infer (O Árbitro Inteligente)

Em vez de o Chefe julgar os 100 pratos um por um, ele organiza um torneio de tênis.

Como funciona: Ele pega dois pratos e pergunta: "Qual é melhor?".
A mágica: O sistema é esperto. Ele não gasta tempo comparando pratos óbvios (como comparar um prato queimado com um prato perfeito). Ele foca nos empates apertados. Se dois pratos parecem muito parecidos, o sistema pede para o Chefe olhar com mais atenção.
Resultado: Com menos esforço, o sistema descobre qual é o verdadeiro campeão entre os 100, sem precisar julgar todos contra todos. É como usar um mapa de calor para saber onde está a dúvida, em vez de perguntar a todos.

2. V1-PairRL (O Treinador que Ensina a Comparar)

Aqui, eles não usam apenas um Chefe que já nasceu sabendo. Eles treinam a IA para ser tanto o Cozinheiro quanto o Júri.

O Treino: A IA gera um prato, depois gera outro, e o próprio "Júri" interno dela compara os dois.
A Evolução: Conforme a IA aprende a cozinhar pratos melhores, o "Júri" interno também aprende a julgar melhor, porque está comparando pratos que estão ficando cada vez mais sofisticados. Eles evoluem juntos.
Resultado: A IA não apenas gera respostas melhores, mas também aprende a identificar a resposta certa com muito mais precisão do que antes.

Por que isso é importante? (A Analogia Final)

Pense em tentar encontrar uma agulha no palheiro.

Método Antigo: Você pega cada palha, olha para ela e diz: "Isso parece uma agulha?". Você pode se enganar e achar que um palho é uma agulha.
Método V1: Você pega dois pedaços de palha e pergunta: "Qual deles parece mais com uma agulha?". É muito mais fácil notar a diferença quando você coloca as coisas lado a lado.

Resumo da Ópera:
O V1 ensina a Inteligência Artificial a não confiar apenas na "intuição" de julgar uma resposta sozinha. Em vez disso, ele a faz colocar as respostas em uma "arena" de comparação direta. Isso permite que a IA resolva problemas de matemática e programação muito mais difíceis, encontrando a resposta certa mesmo quando gera centenas de tentativas, gastando menos energia e tempo no processo.

É como trocar um juiz que dá notas soltas por um torneio esportivo onde o vencedor é decidido por quem realmente ganha a disputa.

Each language version is independently generated for its own context, not a direct translation.

Título: V1: Unificando Geração e Auto-Verificação para Raciocinadores Paralelos

1. O Problema

O aumento da capacidade de raciocínio em Grandes Modelos de Linguagem (LLMs) durante o tempo de inferência (test-time scaling) frequentemente envolve a geração paralela de múltiplas cadeias de pensamento (soluções candidatas) para, em seguida, selecionar a melhor resposta. No entanto, existe um gargalo crítico: a verificação.

Limitação da Verificação Pontual (Pointwise): Métodos existentes geralmente avaliam cada solução candidata de forma independente, atribuindo uma pontuação escalar (ex: 1 a 10). O artigo demonstra que essa abordagem sofre de "colapso de calibração": os modelos tendem a superestimar soluções plausíveis, mas incorretas, e não possuem uma escala global comparável para distinguir nuances entre candidatos.
Limitação da Agregação (Self-Aggregation): Métodos que tentam combinar soluções (como a Agregação Auto-Recursiva - RSA) podem levar ao "colapso de diversidade", onde soluções corretas, mas menos comuns (outliers), são descartadas durante o processo de refinamento, reduzindo a probabilidade de sucesso (Pass@N).
Viés de Auto-Verificação: Modelos tendem a ser tendenciosos a aceitar suas próprias amostras incorretas quando avaliadas isoladamente.

2. Metodologia: O Framework V1

Os autores propõem o V1, um framework unificado que aborda tanto a inferência quanto o treinamento, baseado na premissa de que a verificação por pares (pairwise) é superior à pontuação absoluta. O framework possui dois componentes principais:

A. V1-Infer (Algoritmo de Inferência)
É um algoritmo de verificação por pares guiado por incerteza, projetado para selecionar a melhor solução entre $N$ candidatos gerados.

Estratégia de Ranking: Em vez de pontuar soluções isoladamente, o modelo compara pares de soluções.
Agendamento de Orçamento (Swiss System): O algoritmo utiliza uma estratégia de torneio baseada no sistema suíço para alocar o orçamento computacional de verificação de forma eficiente:
1. Cobertura de Topologia: Garante que todas as soluções sejam comparadas pelo menos um número mínimo de vezes para evitar que soluções fiquem "órfãs" no ranking.
2. Refinamento Suíço (Swiss Refinement): Foca o orçamento restante nas comparações mais ambíguas (pares com pontuações de qualidade similares). Comparações entre soluções de qualidade muito diferente são menos informativas; o algoritmo prioriza "quase empates" para reduzir a incerteza onde ela importa mais.
Aggregação Ponderada: As comparações não são apenas vitórias/derrotas binárias. O modelo atribui uma pontuação de confiança (1-10). A diferença de pontuação entre os pares é usada como um peso para a confiança do julgamento, permitindo uma agregação mais robusta.

B. V1-PairRL (Framework de Treinamento por Reforço)
É um método de aprendizado por reforço (RL) que treina um único modelo para atuar simultaneamente como gerador e verificador por pares.

Co-evolução: Diferente de métodos anteriores que treinam verificadores separados ou usam dados offline, o V1-PairRL treina o modelo em um ciclo online. À medida que o gerador melhora, a distribuição de suas saídas muda, e o verificador é treinado continuamente sobre dados in-distribution (da distribuição atual do modelo).
Objetivo Unificado: A função de perda combina a otimização da geração correta (usando recompensas binárias de execução de código) e a precisão do julgamento por pares.
Mitigação de "Reward Hacking": Para evitar que o modelo aprenda truques (como dar pontuações seguras de 0.5 para tudo ou gerar soluções vazias para facilitar a verificação), o treinamento utiliza:
- Um limite de esparsidade na recompensa do verificador (só recompensa se a pontuação estiver próxima de 0 ou 1).
- Uma estratégia de pareamento estrita: o treinamento de verificação só ocorre quando é possível formar pares contendo pelo menos uma solução correta (Correto-Incorreto ou Correto-Correto).

3. Contribuições Principais

Análise de Limitações: Demonstração de que a verificação independente sofre de colapso de calibração e que a agregação causa colapso de diversidade, motivando a verificação por pares como uma alternativa ortogonal e preservadora de diversidade.
V1-Infer: Desenvolvimento de um algoritmo de inferência que supera a verificação pontual e métodos de agregação (como RSA) com menos chamadas ao modelo, alcançando precisão próxima ao Pass@N original.
V1-PairRL: Introdução de um framework de RL que co-treina geração e verificação por pares, resultando em modelos com capacidades de raciocínio e auto-verificação superiores, sem a necessidade de modelos verificadores externos.

4. Resultados Experimentais

Os métodos foram avaliados em benchmarks de geração de código (LiveCodeBench, CodeContests, SWE-Bench) e raciocínio matemático (AIME, HMMT).

Desempenho em Inferência (V1-Infer):
- Melhorou o Pass@1 em até 10% em comparação com a verificação pontual.
- Superou ou igualou o desempenho da Agregação Auto-Recursiva (RSA), mas com um custo computacional significativamente menor (menos chamadas ao modelo).
- Em tarefas de engenharia de software real (SWE-bench Lite), a verificação por pares aumentou a taxa de resolução em 5.0% sobre a verificação pontual, identificando correções sutis que a pontuação isolada perdia.
- Ganhos mais significativos foram observados em problemas difíceis, onde a seleção precisa entre candidatos diversos é crítica.
Desempenho em Treinamento (V1-PairRL):
- O modelo co-treinado obteve ganhos de 7–9% no scaling de tempo de inferência em comparação com o RL padrão e treinamento conjunto pontual.
- Melhorou o Pass@1 base (sem verificação extra em tempo de teste) em até 8.7% sobre o RL padrão, indicando que o treinamento conjunto melhora a capacidade intrínseca de raciocínio do modelo.
- Superou consistentemente o V1-PointRL (versão com verificação pontual), provando que a verificação por pares é um sinal de aprendizado mais eficaz.

5. Significância e Conclusão

O trabalho V1 estabelece que a comparação relativa (por pares) é um primitivo fundamentalmente mais robusto para a verificação de LLMs do que a pontuação absoluta.

Eficiência: Permite escalar o tempo de inferência de forma mais eficiente, focando recursos computacionais nas decisões mais ambíguas.
Unificação: Demonstra que treinar um único modelo para gerar e verificar (por pares) cria um ciclo virtuoso de melhoria, eliminando a necessidade de modelos verificadores externos e reduzindo custos de memória e computação.
Aplicabilidade: O método é aplicável a domínios onde não há "resposta correta" objetiva imediata (como código complexo ou problemas de engenharia), superando as limitações de métodos baseados em votação majoritária.

Em suma, o V1 oferece um novo paradigma para o raciocínio paralelo, onde a geração e a verificação evoluem juntas, resultando em sistemas de IA mais confiáveis e capazes de resolver problemas complexos com maior precisão.

V1V_1V1​: Unifying Generation and Self-Verification for Parallel Reasoners

O Problema: O "Chefe" Confuso

A Solução V1: O Torneio de "Cara a Cara"

1. V1-Infer (O Árbitro Inteligente)

2. V1-PairRL (O Treinador que Ensina a Comparar)

Por que isso é importante? (A Analogia Final)

Título: V1: Unificando Geração e Auto-Verificação para Raciocinadores Paralelos

1. O Problema

2. Metodologia: O Framework V1

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners