Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment
Este estudio demuestra que, para el despliegue de IA clínica en entornos de bajos recursos, los modelos de código abierto pequeños como Llama 3.2 ofrecen el mejor equilibrio entre precisión y consistencia, advirtiendo que una alta consistencia no garantiza la corrección y que el entrenamiento específico en el dominio sin ajuste de instrucciones es insuficiente para tareas de respuesta clínica estructurada.