Can Small Models Reason About Legal Documents? A Comparative Study

Este estudo demonstra que modelos de linguagem pequenos (sub-10B), especialmente aqueles com arquitetura Mixture-of-Experts e estratégias de *few-shot prompting*, podem superar ou igualar modelos maiores em tarefas jurídicas, revelando que a qualidade do treinamento e a arquitetura são mais decisivas que o número de parâmetros, enquanto a recuperação de contexto (RAG) mostrou-se menos crítica que a capacidade do modelo de utilizar essas informações.

Snehit Vaddi

Publicado 2026-03-30
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa resolver um quebra-cabeça jurídico complexo, mas não tem dinheiro para contratar o "detetive mais caro e famoso do mundo" (os modelos de IA gigantes como o GPT-4). Você se pergunta: "Será que um detetive júnior, mais barato e rápido, consegue fazer o mesmo trabalho?"

Este artigo é exatamente sobre essa investigação. O pesquisador testou vários "detetives júnior" (modelos de IA menores, com menos de 10 bilhões de "cérebros" ou parâmetros) contra os "detetives de elite" em tarefas de direito.

Aqui está o resumo da história, explicado de forma simples:

1. O Grande Teste: Quem é o melhor detetive?

O autor colocou 9 modelos diferentes para trabalhar em três tipos de casos jurídicos:

  • Contratos: Entender se uma frase contradiz ou confirma outra.
  • Decisões de Tribunal: Encontrar a regra certa escondida em um texto longo.
  • Direitos Humanos: Identificar quais leis foram violadas em um caso.

A Grande Surpresa:
Um modelo chamado Qwen3-A3B (que é como um "gênio econômico") conseguiu desempenho igual ao do GPT-4o-mini (o modelo caro da OpenAI).

  • A Analogia: Imagine que o GPT-4 é um caminhão de 18 rodas. Ele é poderoso, mas gasta muito combustível. O Qwen3-A3B é uma moto de alta tecnologia. Ele usa apenas 3 bilhões de "cérebros" ativos de um total de 30 bilhões (uma arquitetura chamada Mixture-of-Experts). É como se a moto só ligasse os motores necessários para a curva, economizando energia, mas chegando ao mesmo destino na mesma velocidade.
  • Resultado: A moto (Qwen) venceu o caminhão em alguns casos e empatou em outros, tudo isso gastando muito menos dinheiro.

2. O Tamanho não é documento (e às vezes atrapalha)

O estudo descobriu que ter um modelo gigante (com 9 bilhões de parâmetros) não significa que ele é inteligente.

  • A Analogia: É como ter um funcionário com um currículo de 100 páginas, mas que não sabe fazer o trabalho básico. O modelo "Nemotron-9B" foi o pior de todos, ficando atrás até de modelos 3 vezes menores.
  • Lição: A qualidade do treinamento e a arquitetura (como o cérebro é organizado) importam muito mais do que apenas o tamanho bruto.

3. O "Modo de Falar" importa mais que o cérebro

O autor testou 5 maneiras diferentes de pedir a tarefa para a IA (como dar instruções a um estagiário).

  • Chain-of-Thought (Pensar Passo a Passo):
    • Funciona bem para: Contratos. Pedir para a IA "pensar devagar" ajudou a entender a lógica.
    • Funciona mal para: Escolha múltipla (Decisões de Tribunal). Quando a IA começa a "pensar alto" e escrever muito, ela se perde e esquece de escolher a resposta correta (A, B, C, D ou E).
    • Analogia: É como pedir para um jogador de futebol explicar cada passo tático antes de chutar a bola. Às vezes, ele pensa tanto que esquece de chutar ou chuta para fora.
  • Few-Shot (Dar Exemplos):
    • Esta foi a campeã. Mostrar 3 exemplos de como resolver o problema antes de pedir a resposta funcionou melhor em quase tudo. É como dar um "cola" ou um modelo de como fazer a tarefa.

4. A Ferramenta de Pesquisa (RAG) não faz tanta diferença

Os pesquisadores tentaram ajudar a IA usando duas ferramentas de busca diferentes: uma que busca palavras-chave exatas (BM25) e outra que busca pelo "significado" (Dense).

  • O Resultado: Elas funcionaram quase igual.
  • A Analogia: Não importa se você usa um mapa antigo ou um GPS moderno; se o motorista (a IA) não sabe dirigir, ele vai se perder de qualquer jeito. O problema não era a ferramenta de busca, mas sim como a IA usava as informações que encontrava.

5. O Custo da Investigação

O mais impressionante é que todo esse estudo foi feito gastando apenas US$ 62 (aprox. 300 reais).

  • O autor não precisou de supercomputadores caros. Ele usou serviços na nuvem, como se alugassem computadores por hora. Isso prova que você não precisa ser uma grande empresa para testar e usar IA de alta qualidade no direito.

Resumo Final para Você

Se você é um advogado ou alguém que trabalha com direito e quer usar IA:

  1. Não gaste fortunas: Modelos pequenos e inteligentes (como o Qwen3-A3B) podem fazer o mesmo trabalho dos gigantes caros.
  2. Escolha o método certo: Se for analisar contratos, peça para a IA "pensar passo a passo". Se for escolher uma resposta entre várias, mostre exemplos primeiro (Few-Shot) e não peça para ela escrever um romance antes de responder.
  3. Qualidade > Quantidade: Um modelo menor e bem treinado é melhor que um gigante mal treinado.

Em suma: A inteligência artificial no direito está ficando mais barata, mais rápida e tão inteligente quanto os modelos caros, desde que você saiba como "pedir" a tarefa.