LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Este artículo presenta LLM-ProS, una nueva técnica de evaluación que analiza el rendimiento de modelos de lenguaje avanzados en problemas de programación competitiva del ICPC, revelando diferencias significativas en sus capacidades de razonamiento y los factores que influyen en su eficacia.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin, Tarannum Shaila Zaman

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje Grande (LLM), como los que usan ChatGPT o sus versiones más nuevas, son como estudiantes geniales que han leído millones de libros, artículos y códigos de programación.

El artículo que me has pasado, titulado "LLM-ProS", es como un examen de matemáticas y lógica de nivel olímpico que le pusimos a estos estudiantes para ver si realmente saben resolver problemas difíciles o si solo están "recitando de memoria".

Aquí te explico la historia con una analogía sencilla:

1. El Escenario: La "Olimpiada de Programación"

Imagina que organizamos una competencia de programación muy difícil (llamada ICPC). Estos problemas no son tareas de la escuela; son acertijos complejos que requieren pensar mucho, usar lógica avanzada y escribir código perfecto.

Los autores del estudio tomaron 166 de estos problemas, algunos viejos (del 2011) y otros nuevos del 2024 (que nadie ha visto antes).

2. Los Participantes: Cinco "Estudiantes" Distintos

Pusieron a competir a cinco modelos de Inteligencia Artificial diferentes:

  • GPT-4o, Mistral Large y Llama-3.1: Son como estudiantes muy inteligentes y versátiles que han leído de todo. Son buenos para escribir ensayos o explicar cosas, pero no están entrenados específicamente para resolver acertijos de lógica pura.
  • La familia "o1" (o1-mini y o1-preview): Son como estudiantes que han recibido un entrenamiento especial de "pensamiento paso a paso". Antes de responder, se toman un momento para pensar, planear y revisar su lógica, como un detective resolviendo un crimen.

3. El Experimento: ¿Quién gana?

Los investigadores les dieron los problemas a los cinco modelos y vieron qué pasaba. Fue como ponerles un examen sorpresa.

  • El resultado de los "Estudiantes Generales" (GPT-4o, etc.):
    ¡Fue un desastre! Estos modelos no resolvieron ninguno de los problemas nuevos del 2024. En los problemas viejos, a veces acertaban un poco, pero la mayoría de las veces fallaban estrepitosamente.

    • La analogía: Es como si un estudiante intentara resolver un problema de física nuevo usando solo lo que memorizó de un libro viejo. Si el problema es diferente, se queda en blanco o inventa cosas que no tienen sentido.
  • El resultado de los "Estudiantes Especializados" (o1-mini y o1-preview):
    ¡Estos sí ganaron! Aunque no resolvieron todo (solo acertaron entre un 7% y un 25% de los problemas, lo cual es mucho para algo tan difícil), fueron los únicos que lograron soluciones correctas.

    • La analogía: Gracias a su entrenamiento especial de "pensar antes de actuar", lograron descomponer el problema difícil en partes pequeñas y encontrar la solución, incluso cuando nunca habían visto ese tipo de acertijo antes.

4. Las Lecciones Aprendidas (Lo que nos dice el estudio)

El estudio descubrió tres cosas muy importantes:

  1. La memoria no es suficiente: Los modelos que solo "recuerdan" lo que leyeron en internet (datos contaminados) fallan cuando ven algo nuevo. Necesitan saber cómo pensar, no solo qué decir.
  2. El "Pensamiento en Cadena" (Chain-of-Thought) es clave: La familia "o1" es mejor porque está diseñada para razonar paso a paso. Es como la diferencia entre adivinar la respuesta de un acertijo y escribir todo el proceso de deducción en un papel.
  3. Necesitamos exámenes nuevos: Si seguimos usando problemas viejos para probar a la IA, nos estaremos engañando. La IA podría estar "haciendo trampa" recordando la respuesta. Necesitamos problemas nuevos (como los del 2024) para ver si realmente son inteligentes.

En resumen

Este estudio nos dice que, aunque la Inteligencia Artificial ha avanzado mucho, los modelos "normales" aún no son expertos en resolver problemas de lógica compleja. Sin embargo, los nuevos modelos que están entrenados para pensar profundamente (como la familia o1) están empezando a mostrar que sí pueden hacerlo, aunque todavía tienen un largo camino por recorrer.

Es como si acabáramos de descubrir que, para ganar una olimpiada de ajedrez, no basta con saber las reglas de memoria; necesitas un cerebro capaz de planear varias jugadas adelante. ¡Y los modelos "o1" parecen tener ese cerebro!