Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás en una pequeña clínica rural en una zona donde no hay internet rápido ni computadoras potentes. Necesitas ayuda para responder preguntas médicas, pero no puedes usar los "superordenadores" de la nube. Así que decides usar un pequeño programa de inteligencia artificial (IA) que cabe en tu computadora normal.

Este estudio es como una prueba de estrés para ver qué tan confiables son estos pequeños programas de IA cuando se les hace la misma pregunta de diferentes maneras.

Aquí tienes los hallazgos principales, explicados con analogías sencillas:

1. La "Constancia" no significa "Verdad" (El reloj roto)

El estudio descubrió algo muy importante: que una IA sea constante no significa que tenga la razón.

La analogía: Imagina un reloj que siempre marca las 3:00 PM. Es extremadamente constante; nunca cambia de hora. Pero si son las 10:00 AM, ese reloj es muy constante y muy equivocado.
En el estudio: Un modelo llamado Gemma 2 fue el más constante (siempre daba la misma respuesta sin importar cómo preguntaras), pero esa respuesta solía ser incorrecta. En medicina, esto es peligroso porque un médico podría pensar: "La IA siempre dice lo mismo, debe tener la razón", cuando en realidad está dando un diagnóstico erróneo con mucha seguridad.

2. El disfraz de "Doctor" arruina el juego (El actor distraído)

Los investigadores probaron pedirle a la IA que respondiera como si fuera un "médico experto" (un estilo de pregunta llamado "roleplay").

La analogía: Es como pedirle a un actor que interprete a un cirujano mientras intenta resolver un problema de matemáticas complejo. El actor se distrae pensando en "cómo actuar" y olvida hacer los cálculos.
En el estudio: Cuando se le pedía a la IA que "actuara" como médico, sus respuestas se volvían peores. Los modelos pequeños se confundían con el disfraz y daban menos respuestas correctas. La lección es: en medicina, es mejor ser directo y simple que intentar parecer un personaje.

3. El tamaño no lo es todo (El camión vs. la moto)

A veces pensamos que una IA más grande (con más "cerebro" o parámetros) es siempre mejor y más segura.

La analogía: Imagina que tienes un camión gigante (una IA grande) y una moto pequeña (una IA pequeña). A veces, el camión se atasca en un camino estrecho (no sigue las instrucciones) mientras que la moto pasa rápido y bien.
En el estudio: El modelo más grande (Mistral 7B) no siempre fue el mejor. De hecho, a veces fallaba en seguir instrucciones simples. El modelo Llama 3.2 (que es más pequeño) fue el equilibrio perfecto: dio las respuestas más correctas y siguió las instrucciones mejor que los demás, siendo ideal para clínicas con recursos limitados.

4. Saber mucho no sirve si no sabes escuchar (La enciclopedia muda)

Hubo un modelo especial (Meditron) que había leído millones de libros médicos, pero nunca le habían enseñado a seguir instrucciones (como "responde solo con A, B o C").

La analogía: Imagina a una persona que ha leído toda la biblioteca de medicina, pero si le preguntas algo, en lugar de responder, empieza a recitar un poema o a gritar. Tiene el conocimiento, pero no sabe cómo entregarlo.
En el estudio: Este modelo, a pesar de saber mucho, falló casi el 100% de las veces porque no entendía cómo debía responder. Esto nos enseña que tener conocimiento médico no es suficiente; la IA también necesita saber cómo comportarse en una consulta.

Conclusión: ¿Qué debemos hacer?

Si quieres usar una IA pequeña en un hospital rural o una clínica sin muchos recursos:

No te fíes solo de que la IA sea constante: Si siempre da la misma respuesta, verifica si es correcta. Podría estar equivocada de forma muy segura.
No le pidas que "actúe": Hazle preguntas directas y simples. No necesitas que se disfraze de doctor para que funcione bien.
Elige el equilibrio: A veces, un modelo mediano y bien entrenado (como Llama 3.2) es mejor que uno gigante o uno que solo tiene muchos libros pero no sabe conversar.

En resumen, para que la IA sea segura en medicina, no basta con que sea "inteligente" o "constante"; necesita ser precisa, obediente y honesta, incluso si es pequeña.

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. La "Constancia" no significa "Verdad" (El reloj roto)

2. El disfraz de "Doctor" arruina el juego (El actor distraído)

3. El tamaño no lo es todo (El camión vs. la moto)

4. Saber mucho no sirve si no sabes escuchar (La enciclopedia muda)

Conclusión: ¿Qué debemos hacer?

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

A. Independencia entre Consistencia y Precisión

B. Efecto Negativo del "Roleplay"

C. Fallos en el Seguimiento de Instrucciones

D. Selección de Modelo para Recursos Limitados

5. Significado e Implicaciones

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. La "Constancia" no significa "Verdad" (El reloj roto)

2. El disfraz de "Doctor" arruina el juego (El actor distraído)

3. El tamaño no lo es todo (El camión vs. la moto)

4. Saber mucho no sirve si no sabes escuchar (La enciclopedia muda)

Conclusión: ¿Qué debemos hacer?

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

A. Independencia entre Consistencia y Precisión

B. Efecto Negativo del "Roleplay"

C. Fallos en el Seguimiento de Instrucciones

D. Selección de Modelo para Recursos Limitados

5. Significado e Implicaciones

Más como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA