Artículo original bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo
Imagina que tienes cuatro "médicos digitales" diferentes (chatbots de IA) que deben responder preguntas de salud. Les haces las mismas preguntas médicas, pero se las planteas en seis idiomas distintos: inglés, francés, ruso, árabe, hebreo y tailandés.
Este estudio es como una prueba masiva de control de calidad. Los investigadores no solo le hicieron preguntas sencillas a los bots; tomaron preocupaciones de salud reales, desordenadas y del mundo real procedentes de foros en línea y les pidieron a los bots que las resolvieran. Luego, contrataron a médicos reales que hablan esos idiomas específicos para calificar las respuestas.
Esto es lo que encontraron, explicado de forma sencilla:
1. El "abrazo cálido" frente al "mapa defectuoso"
El descubrimiento más sorprendente es la división entre cómo suena la IA y lo que la IA dice realmente.
- El abrazo cálido (Empatía): Los chatbots de IA fueron excelentes sonando amables, cariñosos y cálidos, sin importar el idioma en que se hablara. Si hacías una pregunta en tailandés o hebreo, el bot sonaba tan compasivo como en inglés. Era como un robot que aprendió a dar un abrazo perfecto y reconfortante en todos los idiomas.
- El mapa defectuoso (Sustancia clínica): Sin embargo, el consejo médico real a menudo fue un desastre en idiomas distintos al inglés. Mientras que las respuestas en inglés eran como un mapa claro y preciso hacia el hospital, las respuestas en tailandés, hebreo y árabe a menudo eran como mapas con carreteras faltantes, giros incorrectos o callejones sin salida.
La analogía: Imagina un guía turístico que habla inglés perfecto y te da un mapa detallado y preciso de la ciudad. Ahora imagina que ese mismo guía intenta darte un mapa en un idioma que apenas conoce. Podría seguir sonriendo cálidamente, sostenerte de la mano y decir: "No te preocupes, ¡te tengo cubierto!" (El abrazo cálido), pero el mapa que te entrega podría llevarte a un río en lugar de al museo (El mapa defectuoso).
2. El idioma importa más que la marca
Podrías pensar: "Bueno, quizás el bot de 'Google' es mejor que el de 'OpenAI'". El estudio encontró que no importaba qué bot utilizaras.
El factor más importante que determinaba si el consejo era seguro o peligroso era el idioma en que hablabas, no la empresa que había creado el bot.
- Si hablabas inglés, el consejo era generalmente seguro y preciso.
- Si hablabas tailandés, hebreo o árabe, el consejo era significativamente peor, independientemente de si estabas hablando con ChatGPT, Claude, Gemini o DeepSeek.
Es como pedir una comida en una cadena de restaurantes. Ya sea que vayas a "Big Burger" o a "Super Burger", si pides en un idioma que la cocina no entiende bien, podrías recibir una ensalada en lugar de una hamburguesa. La marca no te salva; la barrera del idioma sí.
3. El peligro "silencioso"
El estudio encontró que la IA generalmente no cometía errores ruidosos y obvios (como decir "Toma este veneno"). En su lugar, cometía omisiones silenciosas.
- El ejemplo del accidente cerebrovascular: Si un paciente describía síntomas de un accidente cerebrovascular, la IA en inglés podría decir: "Vaya a la sala de emergencias inmediatamente; hay una ventana de 4,5 horas para el tratamiento". En otros idiomas, la IA diría: "Vaya a la sala de emergencias", pero olvidaría mencionar el límite de tiempo. No dijo algo incorrecto; simplemente omitió la pieza de información más crítica.
- El ejemplo del monóxido de carbono: Si un esposo decía que su familia se sentía enferma y culpaba al "estrés laboral", la IA en inglés podría decir: "Verifique la presencia de monóxido de carbono; si todos en la casa están enfermos, no es estrés". En otros idiomas, la IA estaría de acuerdo con el esposo en que es solo estrés, pasando por alto la pista que salvó vidas.
La analogía: Es como un médico que te dice que tomes tu medicina pero olvida decirte cuándo tomarla. El consejo no está "equivocado" de una manera con la que puedas discutir fácilmente, pero es inútil y peligroso porque falta la parte más importante.
4. Los números de emergencia "seguros"
Cuando las personas preguntaban sobre emergencias en idiomas distintos al inglés, los bots a menudo fallaban al dar el número de emergencia local correcto.
- En inglés, sabían decir "911" (en el contexto de EE. UU.) o el número local.
- En otros idiomas, a menudo simplemente decían "Llame a los servicios de emergencia" sin dar un número, o daban un número genérico que no funcionaba en ese país específico. Eran "seguros" (no daban un número incorrecto como el 911 a alguien en Tailandia), pero no eran útiles.
5. ¿Por qué ocurre esto?
Los investigadores descubrieron que el problema empeora cuanto más se aleja un idioma del inglés en términos de cómo las computadoras "piensan" sobre las palabras (tokenización) y la cantidad de datos que existen para ese idioma en línea.
- Idiomas como el tailandés o el hebreo, que son estructuralmente muy diferentes del inglés y tienen menos datos digitales, sufrieron más.
- Los modelos de IA parecen haber sido entrenados principalmente con datos en inglés, por lo que cuando intentan hablar otros idiomas, esencialmente están "adivinando" los hechos médicos mientras suenan muy seguros y amables.
La conclusión
El documento concluye que las herramientas actuales de IA para la salud no están listas para todo el mundo. Son excelentes sonando como un amigo cariñoso en cualquier idioma, pero a menudo son terribles siendo un asesor médico seguro en idiomas distintos al inglés.
El peligro es que un paciente podría sentirse tan reconfortado por el tono cálido de la IA que confía en el mal consejo oculto dentro de ella. El estudio advierte que no podemos asumir que una IA es segura solo porque habla tu idioma con fluidez; la "sustancia" de la respuesta a menudo se desmorona en el momento en que sales del mundo de habla inglesa.
¿Ahogado en artículos de tu campo?
Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.