Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

Die Studie stellt Sino-US-DrugQA vor, ein bilingualer Benchmark-Datensatz mit über 11.000 Fragen, der zeigt, dass aktuelle Large Language Models zwar bei monolingualen regulatorischen Abfragen nutzbar sind, jedoch bei vergleichenden Analysen zwischen US-amerikanischen und chinesischen Arzneimittelvorschriften signifikante Leistungseinbußen aufweisen, was eine vorsichtige, von Experten überwachte Anwendung erfordert.

Chen, Z., Fu, X., Lu, W.

Veröffentlicht 2026-02-17
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Welt der Arzneimittelzulassung ist wie ein riesiges, kompliziertes Labyrinth mit zwei verschiedenen Eingängen: einer in den USA und einer in China. Jeder Eingang hat seine eigenen, strengen Regeln, die in dicken Regelbüchern stehen. Ein Unternehmen, das Medikamente in beide Länder verkaufen möchte, muss diese beiden Regelwerke genau kennen und vergleichen, um keine Fehler zu machen.

Bisher war es schwierig zu wissen, ob die neuen, super-intelligenten Computerprogramme (die sogenannten „Künstlichen Intelligenzen" oder KI) wirklich gut darin sind, diese beiden Regelwerke zu verstehen und zu vergleichen. Können sie sagen, ob eine Regel in China anders ist als in den USA? Oder machen sie dabei Fehler?

Das ist genau das Problem, das diese neue Studie löst.

Die Forscher haben einen neuen „Prüfstein" namens Sino-US-DrugQA geschaffen. Man kann sich das wie einen riesigen, zweisprachigen Quiz-Wettbewerb vorstellen, den sie speziell für diese KI-Programme entwickelt haben.

Hier ist, was sie getan haben, einfach erklärt:

  1. Der Quiz-Bogen: Sie haben über 11.000 Fragen aus den offiziellen Regelbüchern beider Länder gesammelt. Es sind Multiple-Choice-Fragen, bei denen die KI die richtige Antwort auswählen muss.
  2. Die Aufgaben: Die Fragen sind in zwei Arten unterteilt:
    • Einfache Fragen: „Was sagt das Regelbuch in China dazu?" (Wie ein Schüler, der nur sein eigenes Lehrbuch kennt).
    • Schwierige Vergleichsfragen: „Wie unterscheidet sich die Regel in China von der in den USA?" (Wie ein Schüler, der zwei verschiedene Lehrbücher gleichzeitig lesen und die Unterschiede erklären muss).
  3. Der Testlauf: Sie haben vier der aktuell stärksten KI-Modelle (wie GPT, Gemini und andere) gegen diesen Quiz-Wettbewerb antreten lassen. Die KIs durften keine Hilfe bekommen und mussten die Fragen sofort beantworten.

Was ist dabei herausgekommen?

Die Ergebnisse waren eine Mischung aus „Gut gemacht" und „Vorsicht geboten":

  • Bei den einfachen Fragen waren die KIs ziemlich schlau. Sie haben in etwa 80 bis 85 % der Fälle die richtige Antwort gefunden. Das ist wie ein sehr guter Assistent, der Ihnen schnell hilft, eine einzelne Regel zu finden.
  • Bei den Vergleichsfragen wurde es aber knifflig. Hier sank die Leistung der KIs um etwa 6 bis 9 Prozentpunkte. Das ist, als ob ein Schüler, der eine Matheaufgabe allein lösen kann, plötzlich ins Stolpern gerät, wenn er zwei verschiedene Lösungswege miteinander vergleichen soll.

Die große Erkenntnis:

Die Studie zeigt uns, dass diese KI-Programme heute schon hervorragende Assistenten sein können, wenn es darum geht, Informationen aus einem Land zu suchen oder Entwürfe zu schreiben. Sie sind wie ein schneller Bibliothekar.

Aber wenn es darum geht, die Regeln von zwei verschiedenen Ländern zu vergleichen und daraus logische Schlüsse zu ziehen, sind sie noch nicht ganz so sicher wie ein erfahrener menschlicher Experte. Sie machen hier noch zu viele Fehler.

Das Fazit für die Praxis:

Man sollte diese KI-Programme also nicht blind vertrauen, wenn es um den direkten Vergleich zwischen den USA und China geht. Sie sind ein tolles Werkzeug, um die Arbeit zu erleichtern, aber der menschliche Experte (der „Chef-Regelkenner") muss am Ende immer noch alles überprüfen. Die KI ist der Assistent, aber nicht der Entscheider.

Die Forscher haben den gesamten Quiz-Wettbewerb und die Fragen kostenlos ins Internet gestellt, damit andere Forscher und Entwickler ihre eigenen KIs damit testen und verbessern können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →