Story Point Estimation Using Large Language Models

Este estudio demuestra que los modelos de lenguaje grande pueden estimar puntos de historia en proyectos de software con mayor precisión que los modelos de aprendizaje profundo tradicionales sin datos de entrenamiento, y que su rendimiento mejora aún más al utilizar ejemplos de juicios comparativos en configuraciones de pocos ejemplos.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe Yu

Publicado Mon, 09 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás organizando una gran fiesta de cumpleaños. Tienes una lista de tareas: "comprar el pastel", "decorar el salón", "invitar a 50 personas". Para saber si puedes terminar todo a tiempo, necesitas estimar cuánto esfuerzo te costará cada cosa.

En el mundo del desarrollo de software, a esto se le llama estimación de "puntos de historia". Es como decir: "Este pastel es un 3 de esfuerzo, pero decorar el salón es un 8".

El problema es que los humanos a veces son subjetivos, cansados o simplemente no se ponen de acuerdo. Además, para que una computadora aprenda a hacer esto por nosotros, normalmente necesita ver miles de ejemplos anteriores (como un estudiante que tiene que leer miles de libros antes de aprobar un examen). Pero, ¿qué pasa si es un proyecto nuevo y no tienes esos libros?

Aquí es donde entra esta investigación, que es como un experimento con "inteligencias artificiales superpoderosas" (llamadas Modelos de Lenguaje Grande o LLMs, como los que usas para chatear).

La Gran Pregunta

Los investigadores se preguntaron: ¿Puede una IA adivinar el esfuerzo de una tarea sin haber estudiado antes (sin datos), o con solo ver unos pocos ejemplos?

Para responder, probaron cuatro "cerebros" de IA diferentes en 16 proyectos de software reales. Aquí te explico sus hallazgos con analogías sencillas:

1. La Magia del "Sin Estudiar" (Zero-Shot)

Imagina que le das a un chef experto una receta nueva que nunca ha visto, pero le dices: "Hazme un pastel".

  • El hallazgo: ¡Funciona! Las IAs, incluso sin haber visto los datos de ese proyecto específico, pudieron estimar el esfuerzo mejor que los modelos tradicionales que sí habían estudiado el 80% de los datos anteriores.
  • La analogía: Es como si tuvieras un genio que, solo por leer la descripción de una tarea, sabe intuitivamente si es "fácil como pelar una naranja" o "difícil como mover una roca", sin necesidad de haber hecho esa tarea antes.

2. El Poder de los "Ejemplos Rápidos" (Few-Shot)

Ahora, imagina que le das al chef no solo la receta, sino que le muestras cinco fotos de pasteles anteriores que ya hizo, diciéndole: "Este fue un 3, este un 5, este un 8".

  • El hallazgo: ¡La IA mejora muchísimo! Con solo cinco ejemplos, sus predicciones se vuelven mucho más precisas.
  • El truco: Funciona mejor si los ejemplos cubren todo el rango (un pastel pequeño, uno mediano y uno gigante) en lugar de solo mostrarle muchos pasteles pequeños. Es como calibrar una balanza: necesitas ver el peso mínimo y el máximo para saber dónde está el punto medio.

3. ¿Es más fácil comparar que contar? (El Dilema Humano vs. IA)

Aquí hay una sorpresa. A los humanos nos resulta más fácil decir: "¿Qué es más difícil: A o B?" (Comparar) que decir "¿Cuántos puntos tiene A?" (Contar). Es como decir "¿Qué pesa más, una manzana o una sandía?" en lugar de decir "¿Cuántos kilos pesa la sandía?".

  • El hallazgo: ¡Para las IAs NO es más fácil! De hecho, a las IAs les sale mejor estimar el número directamente que intentar comparar dos tareas.
  • La analogía: Las IAs parecen tener un "número interno" en su cerebro. Cuando intentamos forzarlas a comparar, es como si les pidieras a un matemático que adivine el resultado de una suma diciendo solo "¿cuál es mayor?" en lugar de hacer la operación. Les sale mejor hacer la operación directa.

4. ¿Sirven las comparaciones para enseñarles?

Aunque a la IA le cuesta más predecir comparaciones, los investigadores probaron si podían usar esas comparaciones como ejemplos para enseñarle.

  • El hallazgo: ¡Sí! Incluso si a la IA le cuesta decir "A es mayor que B", usar esas comparaciones como ejemplos de entrenamiento ayuda a otras IAs (especialmente a las más pequeñas o rápidas) a entender mejor la escala de esfuerzo.
  • La analogía: Es como enseñar a un niño a usar una regla. Primero le muestras dónde está el 1, el 5 y el 10. Luego le preguntas "¿qué es más largo, el lápiz o la regla?". Aunque la pregunta sea diferente, el niño aprende a medir mejor.

Conclusión: ¿Qué significa esto para el futuro?

Esta investigación nos dice que la Inteligencia Artificial está lista para ayudarnos a planificar proyectos de software, incluso cuando no tenemos mucha información previa.

  • Si tienes una IA muy potente: Puedes pedirle que adivine directamente o darle unos pocos ejemplos de tareas pasadas.
  • Si tienes una IA más pequeña o rápida: Es mejor darle ejemplos de comparaciones ("esto es más difícil que aquello") para calibrarla.

En resumen: Ya no es necesario esperar a tener miles de datos históricos para empezar a planificar. Con un poco de ayuda de la IA y quizás solo cinco ejemplos rápidos, los equipos pueden estimar su trabajo de forma más rápida, justa y eficiente. ¡Es como tener un asistente de planificación que nunca se cansa y aprende al instante!