Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

El paper presenta Orion, el primer sistema de extremo a extremo que habilita el entrenamiento y la inferencia de modelos de lenguaje grandes directamente en el Neural Engine de Apple mediante el uso de APIs privadas, superando las limitaciones de CoreML y logrando una aceleración significativa en el entrenamiento al optimizar la actualización de pesos sin recompilación completa.

Ramchand Kumaresan

Publicado Tue, 10 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un coche de lujo (un dispositivo Apple) con un motor de Fórmula 1 oculto bajo el capó: el Neural Engine (ANE). Este motor es increíblemente potente y está diseñado específicamente para tareas de inteligencia artificial. Sin embargo, durante años, Apple ha mantenido la llave de este motor en una caja cerrada.

La gente solo podía usar el coche con el "modo automático" (CoreML), donde el coche decide por ti si usar el motor principal (CPU), las ruedas motrices (GPU) o ese motor de F1 oculto. Nadie podía decirle al coche: "¡Usa el motor de F1 para entrenar a mi propio robot!".

Orion es el proyecto que ha forzado la cerradura, abierto el capó y te ha dado las llaves para conducir ese motor de F1 directamente.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: La "Caja Negra" y el Motor Olvidado

Apple tiene más de 2 mil millones de dispositivos con este chip. Es como tener 2 mil millones de cohetes en tu garaje, pero solo los usas para encender la luz.

  • El obstáculo: El software oficial de Apple (CoreML) es una "caja negra". No te deja ver cómo funciona el motor ni te permite entrenar modelos de Inteligencia Artificial (como los que usan Chatbots) directamente en tu dispositivo. Además, el motor no sabe cómo aprender; solo sabe ejecutar órdenes fijas.

2. La Solución: Orion (El Mecánico Genial)

Los autores crearon Orion, un sistema que ignora las reglas de Apple y habla directamente con el motor. Es el primer sistema de código abierto que permite entrenar (aprender) e inferir (pensar) directamente en este chip.

La Gran Innovación: "La Receta que no hay que reescribir" (Delta Compilation)

Este es el truco más brillante del paper.

  • El problema antiguo: Imagina que el motor de F1 necesita una receta escrita a mano para cada plato. Si cambias un solo ingrediente (una "peso" o parámetro del modelo) para que el robot aprenda algo nuevo, el motor te obliga a reescribir toda la receta desde cero y volver a imprimirla. Esto tomaba 4 segundos por cada paso de aprendizaje. ¡Era tan lento que el robot apenas podía moverse!
  • La solución de Orion: Descubrieron que no necesitan reescribir la receta completa. Solo necesitan cambiar la página del ingrediente en el libro de cocina y volver a leerlo.
    • Orion "desmonta" el programa, cambia los archivos de peso en el disco duro (como cambiar una página de un libro) y lo vuelve a "montar".
    • Resultado: En lugar de tardar 4 segundos en reescribir, tarda 0.5 segundos. ¡El entrenamiento se vuelve 3.8 veces más rápido!

3. Las Reglas del Juego (Las 20 Restricciones)

Al abrir el capó, descubrieron que el motor de F1 es un poco "caprichoso" y tiene reglas estrictas que nadie conocía. Orion creó un manual de instrucciones con 20 reglas para no romper nada:

  • Ejemplo 1: No puedes pegar dos piezas de tela (tensor) directamente; tienes que cortarlas y coserlas por separado.
  • Ejemplo 2: Si pones demasiada comida en la mesa (memoria), el motor se ahoga y pierde el 30% de su velocidad.
  • Ejemplo 3: Si la receta tiene un error matemático (un número infinito), el motor explota (se vuelve loco con errores "NaN"). Orion arregló estos errores para que el entrenamiento sea estable y no se rompa.

4. LoRA: El "Cambio de Rápido" (Hot-Swap)

Imagina que tienes un coche base (el modelo de IA) y quieres que aprenda a conducir en la nieve o en la arena. Normalmente, tendrías que cambiar todo el motor.

  • Orion permite usar LoRA: son como "accesorios" o "kits de entrenamiento" que se conectan al coche mientras está en marcha.
  • Puedes cambiar de un kit de nieve a uno de arena sin apagar el motor ni reescribir la receta. Solo cambias el accesorio (los datos de entrada) y listo. Esto es genial para adaptar la IA a diferentes tareas al instante.

5. Los Resultados: ¿Qué tan rápido es?

  • Inferencia (Pensar): Orion puede generar texto (como un Chatbot) a más de 170 palabras por segundo en un chip M4 Max. Es rápido, aunque el procesador normal (CPU) a veces es un poco más rápido en tareas simples porque el motor de F1 tiene un pequeño retraso al "despertar" (cargar datos).
  • Entrenamiento (Aprender): Lograron entrenar un modelo pequeño (110 millones de parámetros) en 22 minutos en un solo dispositivo, sin que se rompiera ni una sola vez. Antes, esto era imposible o requería reiniciar el proceso constantemente.

En Resumen

Orion es como encontrar el manual de reparación secreto de un motor de Ferrari que todos pensaban que era indestructible y cerrado.

  1. Abrió el motor: Permite programar directamente el chip de Apple.
  2. Arregló el cuello de botella: Encontró una forma de actualizar el aprendizaje sin reiniciar todo el sistema (Delta Compilation).
  3. Hizo el entrenamiento estable: Arregló los errores matemáticos que hacían que el sistema se volviera loco.
  4. Es de código abierto: Cualquiera puede usarlo para crear sus propias inteligencias artificiales que corran directamente en tu iPhone o Mac, sin depender de servidores lejanos.

Es un paso gigante para que la Inteligencia Artificial sea verdaderamente personal, rápida y privada, viviendo dentro de nuestros propios dispositivos.