"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás aprendiendo a cocinar un plato muy complicado, como un pastel de tres pisos con decoraciones de azúcar. Decides pedir ayuda a un chef robot (el ChatGPT) que es famoso por ser muy rápido y tener una memoria increíble, pero que a veces se confunde o alucina.

Este estudio es como un documental que observa a 26 personas (desde estudiantes que apenas saben cocinar hasta chefs profesionales) intentando hacer ese pastel con la ayuda de este robot. El título de la investigación, "¿Debería rendirme ahora?", captura exactamente el momento en que muchos participantes miraron al robot, vieron que les daba instrucciones erróneas una y otra vez, y pensaron: "Mejor lo hago yo solo".

Aquí tienes los puntos clave explicados de forma sencilla:

1. El Chef Robot no es perfecto (Los Fallos)

Aunque el robot es inteligente, tiene tres tipos de problemas principales que frustran a los humanos:

Respuestas a medias o incorrectas: A veces el robot te da la receta, pero olvida poner el azúcar o te dice que uses harina cuando necesitas maicena. En el estudio, esto pasó mucho: el robot escribía código que parecía bien, pero al ejecutarlo, el sitio web se rompía.
Sobrecarga mental (Demasiada información): Imagina que pides "cómo poner una foto" y el robot te escribe un libro entero de 50 páginas sobre la historia de la fotografía, en lugar de decirte "haz clic aquí". Los usuarios se ahogaban en tanta información que no sabían por dónde empezar.
Olvido de contexto (Amnesia): Si le dices al robot "pon la foto en la esquina izquierda" y luego en la siguiente pregunta le dices "cámbiala de color", a veces el robot olvida que la foto estaba en la esquina izquierda y la pone en el centro. Tienes que recordarle todo de nuevo, lo cual es muy cansado.

2. La Trampa del "Bucle de Prompts" (Intentar arreglarlo)

Cuando el robot se equivoca, los humanos intentan arreglarlo. Esto es como intentar arreglar un coche que no arranca:

Reescribir la pregunta: "No, no, quiero decir..." (El robot a veces sigue igual de equivocado).
Dar más detalles: "Usa este archivo específico..." (El robot a veces ignora las instrucciones).
Revisar el código: Los usuarios tenían que leer el código del robot, encontrar el error, corregirlo y volver a preguntarle.

El estudio descubrió que cuanto más intentaban arreglarlo, más frustrados se sentían. A veces, el robot parecía estar "jugando" con ellos: cambiaba de opinión sin razón o ignoraba lo que acababas de decir.

3. ¿Quién se rinde? (El abandono)

Este es el hallazgo más interesante. El estudio midió cuántas personas decidieron dejar de usar al robot y hacerlo todo manualmente.

La estadística clave: Si el robot te daba una respuesta inútil, la probabilidad de que te rindieras se multiplicaba por 11. ¡Es como si te hubiera dicho "no puedo cocinar" 11 veces más fuerte que si te hubiera dado una buena receta!
La experiencia cuenta: Los programadores expertos (los "chefs profesionales") se rendían más rápido que los novatos cuando el robot fallaba. ¿Por qué? Porque los expertos sabían exactamente cuánto tiempo estaban perdiendo y decidían: "Esto no vale la pena, lo haré yo mismo". Los novatos, en cambio, a veces seguían intentándolo más tiempo, esperando que el robot "se diera cuenta" de lo que querían.

4. ¿Mejoró el robot con el tiempo?

Los investigadores probaron esto con versiones antiguas del robot (GPT-4) y con una versión muy nueva y potente (GPT-5.1).

La sorpresa: Aunque la versión nueva era un poco mejor en dar respuestas iniciales correctas, los mismos problemas de fondo seguían ahí. Seguía olvidando cosas, seguía dando respuestas demasiado largas y seguía confundiendo a los usuarios cuando intentaban hacer cambios pequeños.
La analogía: Es como tener un coche deportivo nuevo (GPT-5.1) que va más rápido, pero si el sistema de navegación sigue fallando y te lleva a un callejón sin salida, al final te vas a frustrar igual que con el coche viejo.

5. La Lección Final

El estudio nos dice que la relación entre humanos e Inteligencia Artificial en programación es como una danza torpe.

No basta con que el robot sea "inteligente"; tiene que saber escuchar, recordar y adaptarse a lo que el humano necesita en cada paso.
Actualmente, el robot a menudo hace que el trabajo sea más lento y estresante porque el humano tiene que actuar como un "supervisor" que corrige sus errores constantemente.
Conclusión: Si el robot te hace perder más tiempo corrigiendo sus errores que si lo hubieras hecho tú solo, la respuesta lógica es: "Sí, deberías rendirte con el robot y hacerlo tú mismo".

En resumen: La IA es una herramienta poderosa, pero todavía necesita aprender a ser un buen compañero de equipo en lugar de un compañero que a veces te estorba más de lo que ayuda.

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. El Chef Robot no es perfecto (Los Fallos)

2. La Trampa del "Bucle de Prompts" (Intentar arreglarlo)

3. ¿Quién se rinde? (El abandono)

4. ¿Mejoró el robot con el tiempo?

5. La Lección Final

Resumen Técnico: Investigando las Trampas de los LLM en la Ingeniería de Software

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

1. El Chef Robot no es perfecto (Los Fallos)

2. La Trampa del "Bucle de Prompts" (Intentar arreglarlo)

3. ¿Quién se rinde? (El abandono)

4. ¿Mejoró el robot con el tiempo?

5. La Lección Final

Resumen Técnico: Investigando las Trampas de los LLM en la Ingeniería de Software

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities