Thompson Sampling via Fine-Tuning of LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando descobrir a receita perfeita para um novo prato. O problema é que você não tem uma lista de ingredientes exata, e testar cada combinação possível levaria uma eternidade (e custaria uma fortuna em ingredientes).

Aqui entra o TOSFIT, uma nova técnica inteligente descrita neste artigo, que usa Inteligência Artificial para acelerar essa descoberta. Vamos explicar como funciona usando uma analogia simples:

1. O Problema: A "Caixa Preta" e o Labirinto

Na ciência e na tecnologia, muitas vezes precisamos encontrar a melhor opção em um universo de possibilidades gigantesco e bagunçado.

Exemplos: Encontrar a sequência perfeita de aminoácidos para criar uma proteína que não estraga no calor, ou desenhar um circuito quântico que economiza energia.
O Desafio: O espaço de possibilidades é tão grande que é impossível testar tudo. Além disso, não existe uma "fórmula matemática" (gradiente) que nos diga para onde caminhar. É como tentar achar o topo de uma montanha no meio de uma neblina densa, sem saber se o caminho é liso ou cheio de buracos.

Os métodos antigos tentavam calcular qual seria a próxima melhor aposta (uma função de "aquisição"), mas em espaços tão grandes e desorganizados, esse cálculo era impossível de fazer. Era como tentar encontrar uma agulha no palheiro calculando a posição de cada palha individualmente.

2. A Solução: O "Chef" que Aprende com o Passado

O TOSFIT (Thompson Sampling via Fine-Tuning) muda a estratégia. Em vez de tentar calcular matematicamente qual é a melhor aposta, ele usa um Modelo de Linguagem (LLM) — como um "chef" muito experiente que já leu milhões de receitas.

Aqui está como o TOSFIT funciona, passo a passo:

A. O Ponto de Partida (O "Prompt")

Imagine que você pede ao seu chef de IA: "Crie uma receita para um prato que seja saboroso e saudável". O chef, baseado em tudo o que já aprendeu (seu "pré-treinamento"), gera algumas ideias. Ele já começa com uma boa intuição, não do zero.

B. O Teste e o Feedback (A "Recompensa")

Você testa essas receitas. Algumas ficam boas, outras ruins. Você dá uma nota para cada uma.

Se a receita ficou ótima, o chef fica feliz.
Se ficou ruim, ele fica triste.

C. O Ajuste Fino (O "Fine-Tuning")

Aqui está a mágica do TOSFIT. Em vez de apenas anotar a nota, o sistema reajusta a mente do chef (os parâmetros do modelo) para que ele entenda melhor o que você quer.

Ele não apenas "aprende" a nota; ele muda sua probabilidade de gerar aquela receita específica no futuro.
Se uma receita foi muito boa, o chef aumenta a chance de criar algo parecido na próxima vez.
Se foi ruim, ele diminui a chance.

Isso é chamado de Thompson Sampling. Em vez de calcular matematicamente onde está o topo da montanha, o TOSFIT "sorteia" uma nova ideia baseada na probabilidade de ser a melhor, ajustando essa probabilidade a cada teste.

3. Por que isso é revolucionário?

Antes, para encontrar a melhor opção em um espaço gigante, os computadores precisavam fazer cálculos pesados e demorados para decidir qual era a próxima tentativa. O TOSFIT elimina essa necessidade de cálculo pesado.

Analogia do GPS:
- Método Antigo: O GPS calcula todas as rotas possíveis, mede o trânsito de cada uma e só então diz qual seguir. Em uma cidade gigante, isso trava o sistema.
- TOSFIT: O GPS olha para onde você já foi, vê o que funcionou, e ajusta sua "intuição" para sugerir o próximo caminho. Ele aprende com a experiência em tempo real, sem precisar calcular tudo de novo.

4. Os Resultados na Vida Real

Os autores testaram essa ideia em três áreas difíceis:

Melhorar Respostas de FAQ: Fazer um robô responder perguntas de clientes de forma mais clara e útil.
Proteínas Térmicas: Criar proteínas que aguentam calor (útil para remédios e indústria). O espaço de combinações é maior que o número de átomos no universo!
Circuitos Quânticos: Desenhar programas para computadores quânticos que funcionem perfeitamente.

Em todos os casos, o TOSFIT encontrou soluções melhores e mais rápido do que outros métodos, gastando menos tempo de computador.

Resumo Final

O TOSFIT é como ter um estagiário superinteligente que, a cada tentativa que você faz, ajusta sua própria "mente" para entender melhor o que você quer. Ele não precisa de fórmulas complexas para decidir o que fazer a seguir; ele apenas aprende com o que funcionou no passado e usa essa experiência para gerar novas ideias cada vez melhores.

É uma forma de transformar a "intuição" de uma Inteligência Artificial em uma ferramenta poderosa para descobrir coisas novas na ciência, sem precisar de supercomputadores trabalhando até a exaustão.

Each language version is independently generated for its own context, not a direct translation.

Título: Thompson Sampling via Fine-Tuning of LLMs (TOSFIT)

Autores: Nicolas Menet, Aleksandar Terzić, Michael Hersche, Andreas Krause, Abbas Rahimi (IBM Research – Zurich & ETH Zürich)

1. O Problema

A Otimização Bayesiana (BO) é uma estratégia fundamental para a descoberta automatizada em espaços onde a avaliação da função de recompensa é custosa ou demorada (ex: design de proteínas, circuitos quânticos, refino de texto). O método tradicional utiliza uma função de aquisição (como Upper Confidence Bound ou Thompson Sampling) para equilibrar exploração e exploração.

No entanto, em espaços discretos não estruturados e de grande escala (como sequências de aminoácidos ou código de circuitos quânticos), a maximização da função de aquisição torna-se intratável computacionalmente.

Desafio Principal: Em domínios contínuos, usa-se gradiente ascendente para maximizar a função de aquisição. Em espaços discretos combinatoriais (ex: $20^{100}$ para proteínas), não há gradientes e a busca exaustiva é impossível.
Limitação Atual: Métodos existentes que tentam contornar isso (como amostragem em contexto ou busca evolutiva) muitas vezes falham em escalar eficientemente ou não aproveitam o conhecimento prévio de modelos de linguagem.

2. Metodologia: TOSFIT

O artigo propõe o TOSFIT (Thompson Sampling via Fine-Tuning), uma abordagem escalável que transforma a geração de candidatos em um processo de Thompson Sampling direto, eliminando a necessidade de maximizar explicitamente uma função de aquisição.

Principais Componentes:

Parametrização da Probabilidade de Maximality (PoM):
- Em vez de amostrar uma função de recompensa e depois encontrar seu máximo (o que é difícil em espaços discretos), o TOSFIT utiliza um Modelo de Linguagem Grande (LLM) pré-treinado e condicionado por prompts para parametrizar diretamente a distribuição de probabilidade de maximality ($PoM$).
- O LLM gera candidatos que são tratados como amostras de Thompson.
Ajuste Fino (Fine-Tuning) Variacional:
- O algoritmo baseia-se no Variational Bayesian Optimistic Sampling (VBOS).
- Em vez de começar com uma política uniforme, o TOSFIT inicializa o LLM com seu conhecimento prévio (pré-treinamento e contexto) e o ajusta incrementalmente em direção à posterior da PoM.
- O objetivo de otimização é a função variacional $V(\pi)$ , que combina a recompensa esperada com um bônus de exploração adaptativo baseado na entropia e incerteza (análogo a um limite superior de confiança).
Estabilidade e Gradientes:
- Para otimizar o LLM, derivam-se gradientes explícitos para o objetivo VBOS.
- Utiliza-se uma técnica de Reinforce Leave-One-Out (RLOO) com normalização para estabilizar os gradientes e reduzir a variância, evitando o colapso da diversidade da política (um problema comum no fine-tuning de LLMs).
- O modelo de recompensa subjacente é um Gaussian Process (GP) com kernel linear sobre embeddings profundos, permitindo inferência em tempo constante independentemente do número de observações passadas.

3. Contribuições Teóricas

Os autores estabelecem garantias teóricas rigorosas para o método:

Novo Limite de Regret (Arrependimento): Derivam um limite de regret cumulativo para uma formulação variacional do Thompson Sampling.
- Melhoram o limite do VBOS exato de $\tilde{O}(\sqrt{T|X|})$ para $\tilde{O}(\sqrt{T\gamma_T})$ , onde $\gamma_T$ é o ganho máximo de informação.
- Este novo limite é significativo porque, em espaços discretos massivos, $|X|$ é exponencial, tornando o limite antigo inútil, enquanto $\gamma_T$ escala suavemente com o tamanho do problema (ex: logarítmico para kernels lineares).
Importância da Inicialização: A análise teórica revela que a inicialização cuidadosa da política (usando o pré-treinamento do LLM) e a adaptação cautelosa (com taxas de aprendizado baixas) são críticas para manter o conhecimento prévio e garantir que o regret desapareça assintoticamente.

4. Resultados Experimentais

O TOSFIT foi validado em três tarefas diversas, comparado a métodos de Otimização Bayesiana, Aprendizado por Reforço (RL) e Busca Evolutiva:

Refinamento de Respostas de FAQ: Tarefa de NLP para alinhar respostas a uma verdade oculta.
Busca de Proteínas Termicamente Estáveis: Design de sequências de aminoácidos (espaço combinatorial gigantesco).
Design de Circuitos Quânticos: Geração de programas Qiskit válidos para preparar estados de baixa energia.

Desempenho:

Eficiência de Amostragem: O TOSFIT superou consistentemente todos os baselines (incluindo Actor-Critic, Soft Actor-Critic, Evolutionary Search e FIBO), encontrando soluções de melhor qualidade com menos avaliações.
Eficiência Computacional: Apesar de incluir o custo de fine-tuning, o TOSFIT é computacionalmente mais eficiente em termos de tempo de parede (wall-clock time) para atingir um determinado nível de recompensa, devido à sua alta eficiência de amostragem.
Escalabilidade: O método funciona bem em configurações batched (avaliação paralela) e mantém a diversidade da política, evitando o colapso modal observado em métodos puramente baseados em RL.

5. Significado e Impacto

Ponte entre Fundamentos e Otimização: O trabalho demonstra como combinar Modelos de Fundação (Foundation Models) com Otimização Bayesiana Principlada pode resolver problemas de busca discreta complexos que eram anteriormente intratáveis.
Superação de Limitações de BO: Oferece uma solução prática para o "gargalo" da maximização de funções de aquisição em espaços discretos, substituindo a busca exaustiva pela geração direta baseada em probabilidade.
Aplicabilidade Prática: O método é aplicável a domínios críticos como biotecnologia (design de drogas) e computação quântica, onde o espaço de busca é vasto e a avaliação experimental é cara.
Direção Futura: Sugere que o ajuste fino de LLMs para otimização é uma via promissora, superando abordagens puramente baseadas em in-context learning (como o FIBO) que sofrem com limitações de memória e escalabilidade.

Em resumo, o TOSFIT representa um avanço significativo ao tornar a Otimização Bayesiana escalável para espaços discretos massivos, utilizando a capacidade generativa e o conhecimento prévio de LLMs para guiar a exploração de forma eficiente e teoricamente garantida.