Constructing a Portfolio Optimization Benchmark Framework for Evaluating Large Language Models

Este estudo apresenta um novo framework de benchmark para avaliar a capacidade de modelos de linguagem grandes em otimização de portfólio, demonstrando que, embora o GPT-4 se destaque em objetivos baseados em risco e sob restrições, os modelos atuais ainda apresentam limitações significativas no raciocínio quantitativo financeiro.

Hanyong Cho, Jang Ho Kim

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito inteligente (o Modelo de Linguagem, ou LLM) que sabe falar sobre comida, receitas e ingredientes. Ele pode escrever um livro de receitas incrível, explicar a história do tomate e até sugerir combinações de sabores. Mas a pergunta que os autores deste estudo fazem é: "Se eu der a ele uma lista de ingredientes e disser 'faça o prato mais saudável possível com menos de 500 calorias', ele consegue calcular a quantidade exata de cada coisa, ou ele apenas chuta?"

Este estudo cria um "campo de treinamento" (um benchmark) para testar se esses chefs de IA são realmente bons em matemática financeira ou se são apenas ótimos em conversar sobre finanças.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: "Saber falar" vs. "Saber calcular"

Antes, os testes para IA focavam em coisas como: "Resuma este texto" ou "Qual é a capital da França?". Era como testar se o chef sabe o nome dos ingredientes.
Mas no mundo real dos investimentos, você precisa fazer cálculos complexos. Você precisa decidir quanto dinheiro colocar em ações de tecnologia, quanto em imóveis e quanto em ouro, para ganhar o máximo possível sem perder tudo se o mercado cair. Isso é como tentar montar um quebra-cabeça onde as peças mudam de tamanho dependendo do vento.

Os autores disseram: "Vamos parar de testar apenas a conversa e começar a testar a matemática."

2. A Solução: O "Menu de Escolhas" Matemático

Eles criaram um jogo de perguntas de múltipla escolha, mas com uma pegadinha especial:

  • A Pergunta: "Dado este grupo de investimentos (ações, fundos, etc.) e este objetivo (ex: 'quero o menor risco possível'), qual é a melhor distribuição de dinheiro?"
  • A Resposta Correta: Existe apenas uma resposta matematicamente perfeita, calculada por fórmulas de matemática pura (Teoria de Portfólio).
  • As Respostas Erradas (Distratores): Eles criaram 3 opções erradas que parecem plausíveis, mas que são "armadilhas". Algumas estão um pouco erradas, outras estão muito erradas, para ver se a IA consegue notar a diferença.

É como se o chef tivesse que escolher a receita exata que tem exatamente 499 calorias, entre três outras que têm 550, 600 ou 400 calorias. Se ele escolher a de 600, ele falhou na matemática, mesmo que a receita pareça gostosa.

3. O Teste: Quem é o melhor chef?

Eles colocaram três "chefs" famosos para jogar:

  1. GPT-4 (o "Chef GPT"): O mais famoso.
  2. Gemini 1.5 Pro (o "Chef Gemini"): Outro gigante.
  3. Llama 3.1 (o "Chef Llama"): Um modelo de código aberto.

Eles jogaram quase 10.000 rodadas desse jogo, variando as regras:

  • Objetivos diferentes: "Quero o maior lucro", "Quero o menor risco", "Quero o melhor equilíbrio entre os dois".
  • Regras diferentes: "Você não pode colocar mais de 20% em uma coisa só" ou "Você é obrigado a ter pelo menos 3 tipos de ingredientes".

4. O Resultado: Quem venceu?

Os resultados foram curiosos e revelaram fraquezas específicas:

  • O Chef GPT (GPT-4): Foi o campeão, especialmente quando o objetivo era evitar riscos (como não perder dinheiro). Ele entendeu bem as regras matemáticas e manteve a calma mesmo quando as regras ficavam difíceis. Ele parece ter "internalizado" a lógica da matemática.
  • O Chef Gemini: Foi muito bom quando o objetivo era apenas ganhar dinheiro (lucro máximo). Mas, assim que as regras ficaram complicadas ou exigiram equilibrar risco e lucro, ele começou a errar. Ele parecia querer escolher a opção que parecia "mais lucrativa" no texto, ignorando a matemática por trás.
  • O Chef Llama: Teve o pior desempenho geral. Ele struggled (lutou) muito, especialmente quando as regras eram restritivas.

A Grande Surpresa:
Quando o teste exigiu algo muito complexo, como o "Índice de Sharpe" (que é como medir se o lucro vale a pena o risco que você correu), todos os chefs falharam miseravelmente. Ninguém acertou mais de 10% das vezes. Isso mostra que, embora essas IAs sejam ótimas em conversar, elas ainda têm muita dificuldade em fazer otimização matemática complexa sozinhas.

5. A Lição Final (O que isso significa para nós?)

Imagine que você está planejando uma viagem de férias.

  • Você pode usar a IA para escrever um roteiro bonito, sugerir restaurantes e explicar a história do local (isso é o que ela faz bem hoje).
  • Mas, se você pedir para a IA calcular o orçamento perfeito, considerando o câmbio, o preço dos voos e o risco de cancelamento, para garantir que você não gaste mais do que tem... ela ainda não é confiável o suficiente para tomar essa decisão sozinha.

Conclusão Simples:
Este estudo criou um "prova de matemática financeira" para IAs. O resultado foi que elas são ótimas em falar sobre finanças, mas ainda precisam de um humano (um especialista) para verificar os cálculos antes de tomar decisões reais de investimento. Elas são bons assistentes, mas ainda não são os capitães do navio.