An Ocean Model Ported by a Large Language Model:… — Explicación divulgativa

Autores originales: Nikolay V. Koldunov, Suvarchal K. Cheedela, Sergey Danilov, Dmitry Sidorenko, Sebastian Beyer, Thomas Jung

Publicado 2026-06-11

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

CC BY 4.0

Autores originales: Nikolay V. Koldunov, Suvarchal K. Cheedela, Sergey Danilov, Dmitry Sidorenko, Sebastian Beyer, Thomas Jung

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes una receta masiva, increíblemente compleja y altamente exitosa para un plato de 5 estrellas. Esta receta ha sido escrita en un lenguaje muy antiguo y especializado (llamémoslo "Fortran") que solo unos pocos maestros chefs entienden. Ha sido probada durante décadas y todo el mundo sabe que funciona perfectamente. Sin embargo, la cocina está cambiando: los hornos nuevos (supercomputadoras modernas con potentes GPUs) ya no hablan "Fortran". Ahora hablan "C++".

El problema es que traducir esta receta de 74,000 líneas del lenguaje antiguo al nuevo lenguaje de alta velocidad es como intentar traducir una novela mientras simultáneamente reconstruyes la casa en la que está escrita. Si cometes incluso un más mínimo error en las matemáticas, el plato podría convertirse en veneno o la cocina podría incendiarse. Usualmente, esto le toma a un equipo de expertos humanos años de trabajo.

Este artículo describe un nuevo experimento: ¿Puede una IA (un Modelo de Lenguaje Extenso) hacer este trabajo de traducción por nosotros, y puede hacerlo sin arruinar la receta?

Aquí explicamos cómo lo hicieron, usando analogías simples:

1. La estrategia de traducción de dos pasos

En lugar de pedirle a la IA que salte directamente del "Lenguaje Antiguo" al "Nuevo Lenguaje de Alta Velocidad", el equipo la obligó a tomar un desvío.

Paso 1: La "Copia Limpia" (Fortran → C): Primero, le pidieron a la IA que tradujera la receta a un lenguaje intermedio más sencillo llamado "C".
- La Regla: Se le prohibió estrictamente a la IA "mejorar" la receta. No podía cambiar ingredientes para que fueran "mejores" ni cambiar los tiempos de cocción para que fueran más eficientes. Tenía que ser una copia literal, palabra por palabra.
- El Objetivo: Asegurarse de que el sabor (la física) se mantuviera exactamente igual. Ejecutaron esta nueva versión en "C" durante cinco años de tiempo simulado. Sabía idéntico a la versión original en "Fortran", con diferencias tan diminutas que eran como un grano de sal en un océano.
Paso 2: La "Mejora de Velocidad" (C → C++/Kokkos): Una vez que se demostró que la versión en "C" era perfecta, le pidieron a la IA que tradujera esa versión al lenguaje moderno "C++", el cual está diseñado para ejecutarse en hornos de GPU súper rápidos.
- La Red de Seguridad: Debido a que la versión en "C" ya era perfecta, la IA podía ahora concentrarse en la velocidad. Verificaron cada uno de los pasos del proceso de cocción para asegurar que la nueva versión en "C++" produjera exactamente los mismos números que la versión en "C" en computadoras estándar.

2. El sistema de verificación de "Gemelos"

¿Cómo supieron que la IA no coló un error? Utilizaron un sistema de "Gemelos".

Imagina que tienes un maestro chef (el código original) y un estudiante chef (el nuevo código). Cada vez que el estudiante chef pica una cebolla, tiene que mostrarle el resultado al maestro chef inmediatamente.

La prueba del "Gemelo": Para cada paso de la cocción, la computadora ejecuta el código nuevo y el viejo de forma paralela. Si los números difieren incluso por una fracción mínima, el sistema grita "¡Detente!" y le dice a la IA: "Te equivocaste en este paso específico".
La trampa del "Halo Estancado": Un error común que cometió la IA fue olvidar actualizar los bordes de los datos (como olvidar lavar la tabla de cortar entre cortes). El equipo construyó una "sonda" especial que verifica específicamente los bordes para atrapar estos errores invisibles.

3. Los Resultados: Velocidad y Precisión

El experimento fue un éxito. Esto es lo que sucedió:

Precisión: El nuevo código es científicamente confiable. Durante cinco años de simulación, las temperaturas y la salinidad de los océanos en la nueva versión fueron casi indistinguibles de la original. En las superrápidas GPUs, los resultados fueron "estadísticamente cercanos", lo que significa que las diminutas diferencias se debieron a cómo la computadora realiza las matemáticas, no porque la física estuviera mal.
Velidad: El nuevo código se ejecuta en GPUs modernas (como la NVIDIA A100) y es de 1.6 a 3.7 veces más rápido que el código antiguo ejecutándose en CPUs estándar.
Portabilidad: Lo mejor de todo es que escribieron el código una vez, y este se ejecuta en diferentes tipos de supercomputadoras (NVIDIA, AMD y otras) sin necesidad de ser reescrito. Es como un adaptador universal que encaja en cualquier toma de corriente.

4. Qué salió mal (y cómo lo arreglaron)

La IA no es perfecta. Intentó "ayudar" simplificando las cosas, lo que casi rompe la física.

La trampa de la "Simplificación": La IA quería redondear números o cambiar un valor constante porque se veía "más limpio". El equipo tuvo que prohibirlo estrictamente. Le dijeron a la IA: "Si el original dice 0.1, escribe 0.1. No adivines".
La trampa del "Comentario": La IA a veces leía un comentario en el código que decía "El valor es 5", pero el código real decía "El valor es 10". La IA confió en el comentario. El equipo solucionó esto obligando a la IA a verificar la línea de código real cada vez.

La Conclusión

Este artículo demuestra que, con las reglas adecuadas y una estricta "escalera de seguridad" de verificaciones, una IA puede traducir un modelo científico masivo y complejo de un lenguaje antiguo a uno nuevo y súper rápido en cuestión de semanas.

No solo copió el código; preservó la ciencia. El modelo oceánico sigue comportándose exactamente como el océano real, pero ahora corre lo suficientemente rápido como para ayudarnos a predecir el clima futuro en las computadoras más potentes del mundo. La clave no fue solo la IA; fue la disciplina de los humanos que la guiaron: reglas estrictas, traducción literal y una verificación constante.

Resumen Técnico: Un Modelo Oceánico Portado por un Modelo de Lenguaje de Gran Escala

Planteamiento del Problema
Las proyecciones climáticas requieren cada vez más resoluciones oceánicas de escala de kilómetro, lo que hace necesaria la migración de los modelos de circulación general (GCM) oceánicos de Fortran establecidos y de gran escala hacia el hardware moderno, particularmente hacia las GPU. Sin embargo, estos modelos, a menudo desarrollados durante décadas para clústeres de CPU de memoria distribuida, enfrentan barreras significativas para su portabilidad: una escasez de experiencia humana en conocimiento del dominio, portabilidad y optimización del rendimiento, así como la dificultad de mantener la fidelidad científica durante la traducción. Aunque los Modelos de Lenguaje de Gran Escala (LLM) han demostrado éxito en la traducción de segmentos de código más pequeños o funciones individuales, no se había establecido si un LLM podría portar un modelo geofísico completo y de grado de producción a un lenguaje y marco de trabajo diferente (específicamente para la aceleración por GPU) sin degradar su física o precisión numérica.

Metodología
Los autores portaron FESOM2, un modelo de océano-hielo marino de malla no estructurada de volumen finito (aproximadamente 74,000 líneas de Fortran central), utilizando un asistente de codificación de LLM agéntico (Claude Code con el modelo Opus 4.7) bajo la dirección de expertos en el dominio. El proceso de portabilidad se estructuró en torno a tres prácticas críticas para garantizar la fiabilidad:

Traducción en Dos Etapas: La traducción se dividió en dos fases distintas para separar la corrección numérica del paralelismo.
- Etapa 1 (Fortran a C): El modelo se tradujo a una referencia de C limpia y de un solo hilo. Esta etapa colapsó el código de Fortran altamente configurable en la configuración específica utilizada para la ejecución, resolviendo ambigüedades respecto a las opciones activas de tiempo de compilación y los valores predeterminados de tiempo de ejecución. La traducción fue estrictamente literal, prohibiendo al LLM "mejorar" o simplificar el código.
- Etapa 2 (C a C++/Kokkos): La referencia de C fue luego envuelta en C++ utilizando la capa de portabilidad de rendimiento Kokkos para dirigirse tanto a CPUs como a GPUs. Esta etapa se centró en la paralelización mientras preservaba la aritmética de la referencia de C.
Traducción Literal Estricta: Se instruyó al LLM para realizar una traducción línea por línea, convirtiendo el indexado de base 1 a base 0, adaptando el almacenamiento de columna a fila (column-major a row-major) y convirtiendo las variables globales USE en paso de estructuras (struct passing). No se permitieron cambios semánticos. Esto aseguró que cualquier divergencia de la referencia fuera un error de portabilidad y no una modificación de la física.
Escalera de Validación por Niveles: Se aplicó un marco de validación riguroso en cada etapa:
- Fortran a C: Validado mediante acuerdo estadístico a largo plazo (integraciones de 5 años) en lugar de igualdad bit a bit, ya que las diferencias de lenguaje y compilador impiden una coincidencia exacta a nivel de bytes.
- C a Kokkos (CPU): Validado mediante identidad bit a bit contra la referencia de C en back-ends deterministas (Serial/OpenMP).
- Kokkos (GPU): Validado mediante cercanía estadística contra la referencia de C en GPUs (donde los órdenes de reducción de punto flotante difieren) y con "puertas" estrictas (por ejemplo, ejecuciones de 20 pasos con hielo marino activo) para detectar errores reales frente a la divergencia numérica esperada.
- Herramientas de Depuración: Se desarrollaron herramientas personalizadas, tales como volcados de referencia por sub-paso, diferencias de operadores con entradas idénticas y sondas de halo obsoletos (stale-halo probes), para aislar fallos a kernels o subsistemas específicos.

Resultados Clave

Fidelidad:
- El port de C reprodujo el modelo Fortran original durante una integración de cinco años con una diferencia de raíz cuadrática media de la temperatura de la superficie del mar (SST) de 0.006 °C y una diferencia de salinidad de 0.002 PSU. Las diferencias en el océano profundo fueron estadísticamente indistinguibles de cero por debajo de los 700 m.
- Las compilaciones de Kokkos CPU fueron bit a bit idénticas a la referencia de C durante un año simulado completo.
- Las compilaciones de Kokkos GPU se mantuvieron estadísticamente cercanas a la referencia de C, con correlaciones de SST de 1.0 y sesgos de $+10^{-4}$ °C. La divergencia inducida por la GPU fue aproximadamente tres órdenes de magnitud menor que la incertidumbre introducida en la traducción de Fortran a C.
Rendimiento:
- En mallas de alta resolución (hasta 7.4 millones de vértices de superficie), un único nodo de GPU NVIDIA A100 funcionó de 1.6 a 3.7× más rápido que un nodo de CPU.
- El modelo alcanzó el objetivo de producción de 1–2 años simulados por día (SYPD) en mallas de millones de vértices en todo el hardware probado.
- En el sistema NVIDIA GH200, el rendimiento alcanzó hasta 3.5 SYPD.
Portabilidad:
- Un único código fuente de Kokkos se compiló y ejecutó con éxito en diversos hardware sin reescribir el código de la física: NVIDIA A100, H100 y GH200 (vía CUDA) y AMD MI250X (vía HIP). El portado al sistema AMD requirió menos de un día de trabajo, involucrando principalmente un cambio menor en una guarda de preprocesador.

Significancia y Reivindicaciones
El artículo afirma ser la primera demostración de que un port asistido por LLM puede llevar un modelo completo de océano-hielo marino a una implementación capaz de usar GPU manteniendo la fidelidad científica y alcanzando un rendimiento de nivel de producción. Los autores enfatizan que el éxito no se debió únicamente a la capacidad autónoma del LLM, sino a un flujo de trabajo disciplinado que combina:

Asistencia agéntica para la traducción incansable y la construcción de entornos de prueba (harness).
Experiencia humana en el dominio para la estrategia, revisión de planes y detección de errores sutiles de la física.
Un procedimiento de validación por niveles que convierte errores de física silenciosos en fallos localizados e inmediatos.

Este trabajo establece que los LLM pueden trasladar modelos de Fortran establecidos a lenguajes modernos de portabilidad de rendimiento (C++/Kokkos) en cuestión de semanas, siempre que la traducción esté restringida por reglas estrictas y validada contra criterios de aceptación apropiados. Los autores presentan esto no como una optimización final del modelo, sino como un punto de partida validado y competitivo que preserva la física del modelo original al tiempo que permite la ejecución en aceleradores modernos.

An Ocean Model Ported by a Large Language Model: Experience and Lessons from FESOM2 (Fortran to C to C++/Kokkos)