Tracing Pharmacological Knowledge In Large Language Models

Este estudio utiliza métodos de interpretabilidad causal y de sondeo para demostrar que el conocimiento farmacológico en modelos de lenguaje grandes no se localiza en tokens individuales, sino que emerge de representaciones distribuidas, siendo las capas tempranas y las sumas de activaciones las más críticas para codificar y recuperar dicha información.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor, Anastasiya Kuznetsova

Publicado 2026-03-05
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje Grande (LLMs), como los que usamos para chatear o escribir, son como bibliotecarios superinteligentes que han leído casi todos los libros del mundo, incluidos los de medicina y fármacos.

Este paper (trabajo de investigación) se pregunta: "¿Cómo sabe este bibliotecio que la 'aspirina' es un analgésico? ¿Dónde guarda esa información exactamente dentro de su cerebro digital?"

Aquí te explico los hallazgos principales usando analogías sencillas:

1. El Problema: ¿Dónde está el "saber"?

Antes, pensábamos que cuando un modelo lee una palabra como "aspirina", esa información se guarda en una sola "cajita" (un token) al final de la palabra. Pero los investigadores descubrieron que no es así.

La analogía: Imagina que quieres saber qué es una "sopa".

  • La vieja idea: Pensábamos que la receta de la sopa estaba escrita solo en la última letra de la palabra "sopa".
  • La nueva realidad: La receta está distribuida en todas las letras de la palabra y en las primeras capas de procesamiento. Es como si el sabor de la sopa se sintiera en cada ingrediente mientras se cocina, no solo en el plato final.

2. El Experimento: "El Parche de Activación" (Cirugía Cerebral)

Para encontrar dónde está la información, los científicos usaron una técnica llamada "parche de activación".

La analogía: Imagina que tienes un robot que sabe responder preguntas sobre fármacos.

  1. Le preguntas: "¿Qué es la aspirina?" y el robot responde correctamente.
  2. Luego, le cambias la pregunta a algo falso (como si le dijeras que la aspirina es un tipo de pintura) y el robot se confunde.
  3. El truco: Los científicos toman el "cerebro" del robot cuando estaba respondiendo bien (la respuesta correcta) y le inyectan esa parte específica del cerebro en el momento en que estaba respondiendo mal.

El hallazgo: Descubrieron que para que el robot sepa que la aspirina es un fármaco, no necesitan tocar la última letra de la palabra. Lo más importante ocurre en las primeras capas del cerebro del robot y en las letras del medio de la palabra, no al final. Es como si la "esencia" del fármaco se formara al principio de la frase, mientras que el final solo es una repetición.

3. La Distribución: Un Equipo de Trabajo

Otro descubrimiento clave es que la información no está en un solo lugar, sino que está repartida.

La analogía: Imagina que tienes que armar un rompecabezas de un fármaco.

  • Si miras una sola pieza (un solo token o letra), no sabes qué es. Es como mirar una sola pieza azul y no saber si es el cielo o el mar.
  • Pero si juntas todas las piezas (agrupas las activaciones de todas las letras de la palabra), ¡sorpresa! El dibujo completo aparece y es muy claro.

Los investigadores probaron esto con "sondas lineales" (como una lupa matemática). Cuando miraron una sola letra, la lupa no vio nada útil (casi como adivinar al azar). Pero cuando miraron el conjunto de letras juntas, la información era perfecta y clara.

4. ¿Cuándo ocurre esto?

Lo más sorprendente es que esta información ya está ahí desde el principio, incluso antes de que el modelo empiece a "pensar" profundamente.

La analogía: Es como si, al recibir una carta, el cartero ya supiera de qué trata el contenido solo por el sobre y el primer párrafo, sin necesidad de leer todo el documento hasta el final. La información farmacológica ya está codificada en la "entrada" del sistema.

En Resumen: ¿Por qué importa esto?

Este estudio nos dice que los modelos de IA no son cajas negras mágicas donde la información se guarda en un solo lugar.

  • No es un solo archivo: La información sobre los fármacos está repartida por todo el sistema.
  • Es temprano: Se procesa al principio, no al final.
  • Es un equipo: Necesitas ver el conjunto de letras para entender el significado, no solo una letra suelta.

Esto es vital para la medicina porque nos ayuda a entender cómo la IA piensa, lo que nos permite confiar más en ella, detectar errores y mejorarla para que sea una herramienta más segura y transparente para salvar vidas.

En una frase: La IA no "lee" los fármacos como nosotros; los "siente" como una melodía completa que se forma desde el primer compás, no solo en la última nota.