Story Point Estimation Using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás organizando una gran fiesta de cumpleaños. Tienes una lista de tareas: "comprar el pastel", "decorar el salón", "invitar a 50 personas". Para saber si puedes terminar todo a tiempo, necesitas estimar cuánto esfuerzo te costará cada cosa.

En el mundo del desarrollo de software, a esto se le llama estimación de "puntos de historia". Es como decir: "Este pastel es un 3 de esfuerzo, pero decorar el salón es un 8".

El problema es que los humanos a veces son subjetivos, cansados o simplemente no se ponen de acuerdo. Además, para que una computadora aprenda a hacer esto por nosotros, normalmente necesita ver miles de ejemplos anteriores (como un estudiante que tiene que leer miles de libros antes de aprobar un examen). Pero, ¿qué pasa si es un proyecto nuevo y no tienes esos libros?

Aquí es donde entra esta investigación, que es como un experimento con "inteligencias artificiales superpoderosas" (llamadas Modelos de Lenguaje Grande o LLMs, como los que usas para chatear).

La Gran Pregunta

Los investigadores se preguntaron: ¿Puede una IA adivinar el esfuerzo de una tarea sin haber estudiado antes (sin datos), o con solo ver unos pocos ejemplos?

Para responder, probaron cuatro "cerebros" de IA diferentes en 16 proyectos de software reales. Aquí te explico sus hallazgos con analogías sencillas:

1. La Magia del "Sin Estudiar" (Zero-Shot)

Imagina que le das a un chef experto una receta nueva que nunca ha visto, pero le dices: "Hazme un pastel".

El hallazgo: ¡Funciona! Las IAs, incluso sin haber visto los datos de ese proyecto específico, pudieron estimar el esfuerzo mejor que los modelos tradicionales que sí habían estudiado el 80% de los datos anteriores.
La analogía: Es como si tuvieras un genio que, solo por leer la descripción de una tarea, sabe intuitivamente si es "fácil como pelar una naranja" o "difícil como mover una roca", sin necesidad de haber hecho esa tarea antes.

2. El Poder de los "Ejemplos Rápidos" (Few-Shot)

Ahora, imagina que le das al chef no solo la receta, sino que le muestras cinco fotos de pasteles anteriores que ya hizo, diciéndole: "Este fue un 3, este un 5, este un 8".

El hallazgo: ¡La IA mejora muchísimo! Con solo cinco ejemplos, sus predicciones se vuelven mucho más precisas.
El truco: Funciona mejor si los ejemplos cubren todo el rango (un pastel pequeño, uno mediano y uno gigante) en lugar de solo mostrarle muchos pasteles pequeños. Es como calibrar una balanza: necesitas ver el peso mínimo y el máximo para saber dónde está el punto medio.

3. ¿Es más fácil comparar que contar? (El Dilema Humano vs. IA)

Aquí hay una sorpresa. A los humanos nos resulta más fácil decir: "¿Qué es más difícil: A o B?" (Comparar) que decir "¿Cuántos puntos tiene A?" (Contar). Es como decir "¿Qué pesa más, una manzana o una sandía?" en lugar de decir "¿Cuántos kilos pesa la sandía?".

El hallazgo: ¡Para las IAs NO es más fácil! De hecho, a las IAs les sale mejor estimar el número directamente que intentar comparar dos tareas.
La analogía: Las IAs parecen tener un "número interno" en su cerebro. Cuando intentamos forzarlas a comparar, es como si les pidieras a un matemático que adivine el resultado de una suma diciendo solo "¿cuál es mayor?" en lugar de hacer la operación. Les sale mejor hacer la operación directa.

4. ¿Sirven las comparaciones para enseñarles?

Aunque a la IA le cuesta más predecir comparaciones, los investigadores probaron si podían usar esas comparaciones como ejemplos para enseñarle.

El hallazgo: ¡Sí! Incluso si a la IA le cuesta decir "A es mayor que B", usar esas comparaciones como ejemplos de entrenamiento ayuda a otras IAs (especialmente a las más pequeñas o rápidas) a entender mejor la escala de esfuerzo.
La analogía: Es como enseñar a un niño a usar una regla. Primero le muestras dónde está el 1, el 5 y el 10. Luego le preguntas "¿qué es más largo, el lápiz o la regla?". Aunque la pregunta sea diferente, el niño aprende a medir mejor.

Conclusión: ¿Qué significa esto para el futuro?

Esta investigación nos dice que la Inteligencia Artificial está lista para ayudarnos a planificar proyectos de software, incluso cuando no tenemos mucha información previa.

Si tienes una IA muy potente: Puedes pedirle que adivine directamente o darle unos pocos ejemplos de tareas pasadas.
Si tienes una IA más pequeña o rápida: Es mejor darle ejemplos de comparaciones ("esto es más difícil que aquello") para calibrarla.

En resumen: Ya no es necesario esperar a tener miles de datos históricos para empezar a planificar. Con un poco de ayuda de la IA y quizás solo cinco ejemplos rápidos, los equipos pueden estimar su trabajo de forma más rápida, justa y eficiente. ¡Es como tener un asistente de planificación que nunca se cansa y aprende al instante!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Estimación de Puntos de Historia utilizando Grandes Modelos de Lenguaje (LLMs)

1. Problema de Investigación

La estimación de esfuerzo en el desarrollo de software ágil, específicamente mediante puntos de historia (story points), es un proceso crítico pero inherentemente subjetivo, costoso y difícil de escalar.

Limitaciones de los enfoques actuales: Los modelos de aprendizaje automático supervisados tradicionales (como redes neuronales profundas) han demostrado ser efectivos, pero requieren grandes cantidades de datos de entrenamiento etiquetados (puntos de historia reales) del mismo proyecto para lograr un buen rendimiento. Esto los hace poco prácticos en escenarios de "arranque en frío" (nuevos proyectos) o en proyectos con datos escasos.
Carga cognitiva: La anotación directa de puntos de historia por parte de los desarrolladores es subjetiva y consume tiempo.
Oportunidad: La emergencia de los Grandes Modelos de Lenguaje (LLMs) plantea la pregunta de si estos modelos pueden realizar estimaciones de esfuerzo sin datos de entrenamiento (zero-shot) o con muy pocos ejemplos (few-shot), y si las juicios comparativos (determinar qué ítem requiere más esfuerzo entre dos) son una forma de supervisión más fácil o efectiva para los LLMs que la estimación absoluta.

2. Metodología

Los autores realizaron un estudio empírico sistemático utilizando datos de 16 proyectos de software reales (extraídos de JIRA), que incluyen títulos y descripciones de ítems del backlog junto con sus puntos de historia reales.

Modelos Evaluados: Se probaron cuatro LLMs de última generación:
- DeepSeek-V3.2 (DeepSeek)
- Kimi (Moonshot K2)
- Gemini Flash Lite (Google)
- OpenAI GPT-5 Nano
Preguntas de Investigación (RQ) y Estrategias:
- RQ1 (Zero-Shot): ¿Pueden los LLMs predecir puntos de historia sin datos de entrenamiento? Se utilizó un prompt directo sin ejemplos.
- RQ2 (Few-Shot con Ejemplos Directos): ¿Mejora el rendimiento con pocos ejemplos? Se probaron dos estrategias de selección de 5 ejemplos:
  - Count-based: Basado en la frecuencia de los valores más comunes.
  - Scale-aware: Basado en cubrir el rango completo de valores (mínimo a máximo) para calibrar la escala.
- RQ3 (Juicios Comparativos): ¿Es más fácil para los LLMs predecir juicios comparativos (¿A > B?) que valores absolutos? Se comparó la precisión de la predicción directa de pares contra la derivada de las predicciones de puntos absolutos.
- RQ4 (Few-Shot con Juicios Comparativos): ¿Pueden los juicios comparativos servir como ejemplos few-shot para mejorar la estimación de puntos absolutos? Se utilizaron pares de ítems con su decisión comparativa como ejemplos de entrada.
Métricas de Evaluación:
- Coeficiente de correlación de Pearson ( $\rho$ ): Para medir la alineación lineal con los valores reales.
- Coeficiente de correlación de rango de Spearman ( $r_s$ ): Para medir la alineación del orden/rango.
- Precisión (Accuracy): Para los juicios comparativos binarios.

3. Contribuciones Clave

Evaluación Exhaustiva: Es uno de los primeros estudios que compara sistemáticamente el rendimiento de múltiples LLMs modernos en la tarea de estimación de puntos de historia en un entorno de datos reales y diversos.
Análisis de Supervisión Relativa vs. Absoluta: Investiga si el paradigma de "aprendizaje por preferencias" (juicios comparativos), que es más fácil para humanos, también es más fácil o efectivo para las máquinas (LLMs).
Estrategias de Few-Shot: Propone y evalúa la superioridad de la estrategia de selección de ejemplos "Scale-aware" (cobertura de rango) frente a la selección basada en frecuencia.
Descubrimiento de Diferencias Cognitivas: Revela que el proceso de toma de decisiones de los LLMs difiere fundamentalmente del humano en este contexto específico.

4. Resultados Principales

RQ1 (Zero-Shot): Los LLMs, especialmente Kimi y DeepSeek, lograron un rendimiento superior al de los modelos de aprendizaje profundo supervisados (entrenados con el 80% de los datos) sin utilizar ningún dato de entrenamiento. Esto demuestra que los LLMs poseen conocimientos previos transferibles sobre la complejidad del software.
RQ2 (Few-Shot Directo): Proporcionar solo 5 ejemplos etiquetados mejoró significativamente el rendimiento de todos los modelos. La estrategia Scale-aware (cubrir todo el rango de puntos) fue consistentemente superior a la estrategia basada en frecuencia, ayudando a los modelos a calibrar mejor la escala específica del proyecto.
RQ3 (Comparación Directa vs. Derivada): Contrario a lo que ocurre con los humanos (para quienes la comparación es más fácil), no es más fácil para los LLMs predecir juicios comparativos explícitos. De hecho, la precisión de los juicios comparativos derivados de las predicciones de puntos absolutos fue mayor que la de los juicios comparativos directos. Esto sugiere que los LLMs dependen de una representación numérica latente incluso cuando se les pide una comparación binaria.
RQ4 (Few-Shot Comparativo): Aunque los ejemplos directos suelen ser mejores para modelos potentes (DeepSeek, Kimi), los juicios comparativos funcionan como señales de supervisión efectivas. Sorprendentemente, para el modelo Gemini Flash Lite (más ligero), los ejemplos comparativos superaron a los ejemplos de puntos directos, indicando que la supervisión relativa es una alternativa de bajo costo y alta eficiencia para modelos con menos capacidad.

5. Significado e Implicaciones

Viabilidad en Escenarios de Datos Escasos: Los LLMs ofrecen una solución prometedora y de bajo costo para la estimación de esfuerzo en nuevos proyectos o aquellos con datos históricos limitados, eliminando la necesidad de grandes conjuntos de datos etiquetados para el entrenamiento inicial.
Reducción de la Carga de Anotación: Dado que los juicios comparativos pueden ser más fáciles de obtener para los humanos (aunque no para los LLMs en términos de predicción directa) y son altamente efectivos para calibrar modelos más pequeños, se abre la puerta a flujos de trabajo híbridos. Los equipos pueden proporcionar comparaciones relativas para calibrar modelos ligeros, reduciendo el esfuerzo de anotación.
Diferencia Humano-IA: El estudio destaca una diferencia fundamental: mientras los humanos se benefician de la comparación relativa, los LLMs parecen operar mejor con representaciones numéricas latentes, incluso cuando se les instruye para comparar.
Recomendación Práctica: Para modelos de alta capacidad, se recomienda usar pocos ejemplos directos con diversidad de escala. Para modelos más ligeros o restringidos, los ejemplos comparativos pueden ser la estrategia óptima de supervisión.

En conclusión, el estudio valida que los LLMs pueden transformar la estimación ágil de esfuerzo, ofreciendo un rendimiento robusto sin datos de entrenamiento y mejorando significativamente con una mínima supervisión, ya sea directa o comparativa.

Story Point Estimation Using Large Language Models

La Gran Pregunta

1. La Magia del "Sin Estudiar" (Zero-Shot)

2. El Poder de los "Ejemplos Rápidos" (Few-Shot)

3. ¿Es más fácil comparar que contar? (El Dilema Humano vs. IA)

4. ¿Sirven las comparaciones para enseñarles?

Conclusión: ¿Qué significa esto para el futuro?

Título: Estimación de Puntos de Historia utilizando Grandes Modelos de Lenguaje (LLMs)

1. Problema de Investigación

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities