Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

O artigo apresenta o Orion, o primeiro sistema de ponta a ponta que permite o treinamento e inferência estáveis de modelos de linguagem diretamente na Neural Engine da Apple, contornando as limitações do CoreML através de APIs privadas, descobrindo novas restrições de hardware e otimizando o processo de treinamento ao reduzir drasticamente o tempo de recompilação de pesos.

Ramchand Kumaresan

Publicado Tue, 10 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um carro de luxo (seu iPhone ou Mac) que vem de fábrica com um motor de corrida secreto escondido no porta-malas. Esse motor é superpotente, feito especificamente para correr em pistas de inteligência artificial. Ele é chamado de Neural Engine (Motor Neural) da Apple.

O problema é que, até agora, ninguém sabia como ligar esse motor. A Apple dizia: "Use o motor principal (CPU) ou o motor gráfico (GPU) para rodar seus aplicativos". O motor de corrida ficava lá, frio e parado, enquanto o carro usava um motor a diesel para fazer o trabalho pesado de entender linguagem humana (como o ChatGPT).

O artigo "Orion" é como um manual de instruções pirata e genial que ensina como:

  1. Desbloquear esse motor secreto.
  2. Consertar os problemas que faziam o carro engasgar.
  3. Fazer o carro acelerar em treinamento de inteligência artificial sem precisar trocar o motor a cada curva.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: A "Caixa Preta"

A Apple tem um sistema chamado CoreML que é como um gerente de trânsito muito rígido. Ele decide sozinho para onde o tráfego (os dados) deve ir. Os programadores não podiam mandar o carro usar o motor de corrida (Neural Engine) diretamente. Era como tentar dirigir um carro de F1, mas o volante estava trancado e o gerente de trânsito dizia: "Vou decidir se você usa as rodas da frente ou de trás".

Além disso, treinar uma IA (ensinar o carro a dirigir sozinho) exigia reescrever o manual de instruções do motor a cada vez que o carro aprendia algo novo. Isso era tão lento que o carro ficava parado na garagem a maior parte do tempo.

2. A Solução: O Projeto Orion

Os autores criaram o Orion, um sistema que ignora o gerente de trânsito e vai direto ao motor. Eles usaram "chaves mestras" (APIs privadas) para falar diretamente com o hardware.

A Grande Descoberta: "Troca de Peso Cirúrgica" (Delta Compilation)

Esta é a parte mais brilhante do artigo.

  • O jeito antigo (Lento): Imagine que você está treinando um atleta. A cada treino, você precisava derreter a estátua de bronze do atleta, esculpir uma nova com os músculos atualizados e fundi-la novamente antes de ele poder correr. Isso levava 4 segundos por treino. Se você fizesse 1.000 treinos, passaria 4.000 segundos apenas fundindo estátuas!
  • O jeito Orion (Rápido): Eles descobriram que não precisavam derreter a estátua inteira. Eles podiam apenas trocar os pesos (as roupas e acessórios) do atleta enquanto ele estava pronto.
    • Eles "desligam" o programa antigo do motor.
    • Trocam os arquivos de peso no disco (como trocar a camisa do atleta).
    • "Ligam" o programa de novo.
    • Resultado: O que levava 4 segundos agora leva 0,5 segundos. O treino ficou 3,8 vezes mais rápido.

O "Motor de Corrida" e as Regras Escondidas

O motor de corrida (Neural Engine) é muito rápido, mas tem manias estranhas, como um carro de F1 que só aceita combustível de uma marca específica e só pode fazer curvas em um ângulo exato.
Os pesquisadores descobriram 20 regras secretas que a Apple não documentou. Por exemplo:

  • Se você tentar juntar duas peças de dados de um jeito errado, o motor para de funcionar.
  • Se a memória for muito grande, o motor "engasga".
  • Eles tiveram que criar um tradutor (Compilador) que pega as instruções gerais de IA e as traduz para a linguagem secreta que o motor entende, garantindo que nada quebre.

3. O Que Conseguiram Fazer?

Com o Orion, eles provaram que é possível:

  • Treinar IA no seu Mac: Eles treinaram um modelo de linguagem (como um mini-ChatGPT) diretamente no chip do computador, sem usar a nuvem.
  • Estabilidade: Antes, o motor "engasgava" e a IA ficava louca (erros numéricos). Eles consertaram três bugs que causavam isso, garantindo que o treinamento fosse estável por 1.000 passos sem travar.
  • Troca Rápida de "Adaptadores" (LoRA): Imagine que você quer que o motorista saiba dirigir um caminhão, depois um barco, depois um avião. Antigamente, você teria que trocar o motor inteiro. Com o Orion, você apenas troca o "volante" (os adaptadores) instantaneamente, sem parar o motor.

4. Por que isso é importante?

Hoje, temos 2 bilhões de dispositivos Apple (iPhones, iPads, Macs) com esse motor de corrida superpotente, mas ele está dormindo.

  • Economia de Energia: O motor de corrida gasta quase zero energia quando está parado e é super eficiente.
  • Privacidade: Você pode treinar sua própria IA no seu celular, sem enviar seus dados para a nuvem da Apple ou de outras empresas.
  • Acesso: Como o Orion é de código aberto (grátis), qualquer desenvolvedor pode usar esse motor secreto para criar novas tecnologias.

Resumo em uma frase

O Orion é como um mecânico genial que descobriu como ligar o motor de F1 secreto da Apple, consertou os vazamentos de combustível e criou um sistema para trocar as peças do carro enquanto ele ainda está em movimento, permitindo que qualquer pessoa treine inteligências artificiais super-rápidas e privadas diretamente no seu próprio dispositivo.