Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando encontrar a receita perfeita para um bolo. Você tem uma lista de ingredientes (a temperatura do forno, a quantidade de açúcar, o tempo de cozimento) e quer descobrir a combinação exata que faz o bolo ficar perfeito.

No mundo da Inteligência Artificial, isso se chama Otimização de Hiperparâmetros. É o processo de ajustar os "botões" de um modelo de IA para que ele aprenda da melhor forma possível.

Este artigo compara três maneiras diferentes de encontrar essa receita perfeita:

1. Os Especialistas Clássicos (Os "Cozinheiros de Manual")

Imagine um cozinheiro experiente que não usa criatividade, mas sim matemática pura e testes sistemáticos. Ele testa uma temperatura, anota o resultado, ajusta um pouco e testa de novo. Ele sabe exatamente como o forno reage a cada mudança.

Na prática: Algoritmos como CMA-ES e TPE.
O resultado: Eles são incrivelmente eficientes. Se você der a eles uma lista fixa de ingredientes para testar, eles encontram a melhor combinação muito rápido e com poucos erros.

2. O Agente com IA (O "Chef Criativo")

Agora imagine um chef que é uma Inteligência Artificial (um LLM, como o GPT ou o Qwen). Em vez de apenas ajustar os botões, ele pode reescrever a receita inteira se achar necessário. Ele usa sua "intuição" e conhecimento de culinária para sugerir mudanças ousadas.

Na prática: Agentes que editam o código de treinamento diretamente.
O problema: Quando o chef é muito pequeno (um modelo de IA de 0,8 bilhão de parâmetros), ele se confunde. Ele esquece o que testou antes, propõe combinações que fazem o forno explodir (erros de memória) e demora muito para aprender. Mesmo com um chef maior (27 bilhões de parâmetros), ele ainda é mais lento e menos preciso que o especialista matemático se for obrigado a seguir uma lista fixa de ingredientes.
A lição: A criatividade da IA é ótima, mas ela precisa de um "chefe de cozinha" experiente para não cometer erros bobos.

3. O Centauro (A Solução Híbrida)

Aqui entra a ideia genial do artigo: Centaur.
Na mitologia, um centauro é metade humano e metade cavalo. Neste caso, é metade Especialista Matemático (que sabe navegar no terreno) e metade IA Criativa (que traz ideias novas).

Como funciona: O algoritmo matemático (CMA-ES) guia a maior parte do caminho. Ele diz: "Vamos tentar aqui". A IA olha para a situação, vê o mapa completo que o matemático construiu, e diz: "Espera, eu tenho uma ideia melhor baseada no que vi antes".
O segredo: A IA não precisa fazer tudo sozinha. Ela recebe o "estado mental" do matemático (o mapa, o passo atual, a direção) e apenas sugere ajustes.
O resultado surpreendente: O Centauro foi o campeão. E o mais engraçado? O Centauro usando um chef de IA pequeno e barato (0,8B) funcionou melhor do que o Centauro com um chef gigante e caro (27B).
- Por que? Porque quando o matemático já está guiando o caminho, a IA só precisa dar um "empurrãozinho" criativo. Ela não precisa ser um gênio para fazer isso; ela só precisa ser inteligente o suficiente para entender o conselho do matemático.

Resumo das Descobertas Principais:

Se você tem uma lista fixa de opções: Use os métodos clássicos (matemáticos). Eles são mais rápidos, mais baratos e não cometem erros bobos. A IA, sozinha, perde para eles nesse cenário.
Se você pode mudar o código (a receita): A IA consegue ser competitiva, mas precisa ser um modelo grande e poderoso para não cometer erros.
A Melhor Estratégia (O Centauro): Misture os dois. Deixe o matemático guiar a busca e use a IA (mesmo que pequena) apenas para sugerir ideias criativas baseadas no mapa que o matemático criou.
Confiabilidade é tudo: Os métodos que evitavam erros de "forno explodindo" (falhas de memória) funcionaram melhor do que os que tentavam explorar muitas ideias diferentes ao mesmo tempo.

Em suma: A Inteligência Artificial é incrível, mas ainda não substitui totalmente os métodos clássicos de otimização. O futuro não é "IA contra Matemática", mas sim "IA com Matemática". E, às vezes, um assistente pequeno e barato é melhor do que um gigante caro, se ele tiver um bom guia ao lado.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo investiga se Agentes de Grandes Modelos de Linguagem (LLMs) podem superar os algoritmos clássicos de Otimização de Hiperparâmetros (HPO) na tarefa de ajustar o treinamento de um modelo de linguagem pequeno (aprox. 50M parâmetros). O estudo utiliza o repositório autoresearch como testbed, onde um agente LLM pode editar diretamente o código de treinamento para melhorar o desempenho do modelo.

O objetivo central é responder a duas perguntas:

Como os métodos clássicos de HPO (como CMA-ES e TPE) se comportam nesta tarefa específica?
Métodos baseados em LLMs podem superar os clássicos, seja em um espaço de busca fixo de hiperparâmetros ou através da edição direta de código?

2. Metodologia e Configuração Experimental

Tarefa: Treinamento de um pequeno decoder-only transformer (nanochat) no conjunto de dados FineWeb, otimizando a métrica validation bits-per-byte (val_bpb).
Orçamento: Todos os métodos operaram sob o mesmo orçamento de 24 horas em uma GPU NVIDIA H200, com 3 sementes (seeds) diferentes.
Espaço de Busca:
- Fixo: 14 hiperparâmetros (taxas de aprendizado, tamanhos de lote, etc.) extraídos automaticamente do script de treinamento via Abstract Syntax Tree (AST) para minimizar viés humano na seleção, embora os intervalos tenham sido definidos manualmente.
- Desconstrito (Unconstrained): Edição direta do código-fonte (train.py) pelo agente LLM.
Modelos LLM: Todos os métodos baseados em LLM utilizaram o modelo de peso aberto Qwen3.5 (variantes de 0.8B e 27B), hospedado localmente na mesma GPU do modelo sendo otimizado.
Métodos Comparados (9 no total):
- Clássicos (4): TPE, CMA-ES, SMAC e Busca Aleatória.
- Baseados em LLM (4): LLAMBO (duas variantes), Karpathy Agent (14 HPs) e Karpathy Agent (Código/Desconstrito).
- Híbrido (1): Centaur (proposto pelos autores).

3. Contribuições Principais

Benchmark Abrangente: Avaliação comparativa de 9 métodos de HPO (clássicos, baseados em LLM e híbridos) sob condições idênticas de orçamento e sementes.
Análise de Limitações de LLMs: Demonstração de que, em espaços de busca fixos, LLMs (mesmo de 27B) têm dificuldade em rastrear o estado de otimização e evitar falhas de memória (OOM), performando pior que métodos clássicos.
Introdução do Centaur: Proposta de um método híbrido que compartilha o estado interno completo do CMA-ES (vetor médio $\mu$ , tamanho de passo $\sigma$ e matriz de covariância $C$ ) com o LLM. O LLM atua como um "perturbador informado" que pode sobrescrever as sugestões do CMA-ES.
Descoberta sobre Escala e Híbridos: A descoberta de que um modelo LLM pequeno (0.8B) é insuficiente para edição de código desconstrita, mas suficiente e até superior quando acoplado a um otimizador clássico forte (Centaur), enquanto modelos maiores (27B) não trazem vantagem adicional no cenário de espaço fixo.

4. Resultados Chave

Espaço de Busca Fixo: Métodos clássicos (CMA-ES e TPE) superaram consistentemente os agentes puros de LLM. O CMA-ES convergiu mais rápido e para valores finais melhores.
- Fator Crítico: A evitação de falhas OOM (Out-of-Memory) foi um preditor de desempenho mais forte do que a diversidade de busca. Métodos com altas taxas de OOM (como LLAMBO, com ~~48-61%) performaram mal, enquanto CMA-ES e TPE mantiveram taxas baixas (~~11-16%) graças ao seu estado explícito de otimização.
Edição de Código Desconstrita: O agente "Karpathy Agent (Code)", que edita o código fonte diretamente, foi o único método puramente baseado em LLM competitivo com os clássicos, embora os clássicos ainda encontrassem configurações de desempenho similar cerca de 4x mais rápido.
Desempenho do Centaur (O Melhor Resultado):
- O Centaur alcançou o melhor desempenho geral no experimento.
- Surpresa: A variante Centaur com LLM de 0.8B superou a variante com 27B (0.9766 vs 0.9763). Isso sugere que, quando o CMA-ES gerencia a trajetória de busca, o LLM precisa apenas refinar candidatos promissores, uma tarefa que não exige a capacidade de raciocínio complexo de um modelo grande.
- O Centaur reduziu drasticamente a variância entre sementes em comparação ao CMA-ES puro, estabilizando a otimização.
Papel do LLM no Híbrido: O LLM foi utilizado em apenas 30% das tentativas (trials), mas contribuiu com 25% das melhorias do melhor resultado atual (incumbent). O LLM atua melhor como uma perturbação informada ocasional do que como o motor principal de busca.

5. Significado e Conclusões

O estudo conclui que, atualmente, métodos clássicos de HPO ainda superam agentes LLM puros em tarefas de ajuste de hiperparâmetros dentro de um espaço fixo, principalmente devido à capacidade dos métodos clássicos de aprender o estado de otimização e evitar regiões inviáveis (como falhas de memória) de forma mais confiável.

No entanto, o Centaur demonstra que a fusão de LLMs com otimizadores clássicos é a abordagem mais promissora:

O LLM traz intuição de domínio e capacidade de edição de código.
O Otimizador Clássico (CMA-ES) garante a estabilidade, o rastreamento de estado e a eficiência na exploração do espaço.

Implicações Futuras:

A edição direta de código (espaço desconstrito) é viável, mas depende fortemente da escala do modelo (requerendo modelos grandes).
Para otimização híbrida, modelos menores e mais baratos (como 0.8B) são suficientes quando guiados por um otimizador clássico.
Futuros trabalhos com modelos de ponta (frontier models) podem reduzir ainda mais a lacuna, mas a arquitetura híbrida parece ser o caminho mais robusto para combinar a robustez estatística com a flexibilidade semântica dos LLMs.

O código e os logs de conversa por tentativa estão disponíveis publicamente no repositório do projeto.

Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

1. Os Especialistas Clássicos (Os "Cozinheiros de Manual")

2. O Agente com IA (O "Chef Criativo")

3. O Centauro (A Solução Híbrida)

Resumo das Descobertas Principais:

1. Problema e Contexto

2. Metodologia e Configuração Experimental

3. Contribuições Principais

4. Resultados Chave

5. Significado e Conclusões

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions