Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Welt der Arzneimittelzulassung ist wie ein riesiges, kompliziertes Labyrinth mit zwei verschiedenen Eingängen: einer in den USA und einer in China. Jeder Eingang hat seine eigenen, strengen Regeln, die in dicken Regelbüchern stehen. Ein Unternehmen, das Medikamente in beide Länder verkaufen möchte, muss diese beiden Regelwerke genau kennen und vergleichen, um keine Fehler zu machen.

Bisher war es schwierig zu wissen, ob die neuen, super-intelligenten Computerprogramme (die sogenannten „Künstlichen Intelligenzen" oder KI) wirklich gut darin sind, diese beiden Regelwerke zu verstehen und zu vergleichen. Können sie sagen, ob eine Regel in China anders ist als in den USA? Oder machen sie dabei Fehler?

Das ist genau das Problem, das diese neue Studie löst.

Die Forscher haben einen neuen „Prüfstein" namens Sino-US-DrugQA geschaffen. Man kann sich das wie einen riesigen, zweisprachigen Quiz-Wettbewerb vorstellen, den sie speziell für diese KI-Programme entwickelt haben.

Hier ist, was sie getan haben, einfach erklärt:

Der Quiz-Bogen: Sie haben über 11.000 Fragen aus den offiziellen Regelbüchern beider Länder gesammelt. Es sind Multiple-Choice-Fragen, bei denen die KI die richtige Antwort auswählen muss.
Die Aufgaben: Die Fragen sind in zwei Arten unterteilt:
- Einfache Fragen: „Was sagt das Regelbuch in China dazu?" (Wie ein Schüler, der nur sein eigenes Lehrbuch kennt).
- Schwierige Vergleichsfragen: „Wie unterscheidet sich die Regel in China von der in den USA?" (Wie ein Schüler, der zwei verschiedene Lehrbücher gleichzeitig lesen und die Unterschiede erklären muss).
Der Testlauf: Sie haben vier der aktuell stärksten KI-Modelle (wie GPT, Gemini und andere) gegen diesen Quiz-Wettbewerb antreten lassen. Die KIs durften keine Hilfe bekommen und mussten die Fragen sofort beantworten.

Was ist dabei herausgekommen?

Die Ergebnisse waren eine Mischung aus „Gut gemacht" und „Vorsicht geboten":

Bei den einfachen Fragen waren die KIs ziemlich schlau. Sie haben in etwa 80 bis 85 % der Fälle die richtige Antwort gefunden. Das ist wie ein sehr guter Assistent, der Ihnen schnell hilft, eine einzelne Regel zu finden.
Bei den Vergleichsfragen wurde es aber knifflig. Hier sank die Leistung der KIs um etwa 6 bis 9 Prozentpunkte. Das ist, als ob ein Schüler, der eine Matheaufgabe allein lösen kann, plötzlich ins Stolpern gerät, wenn er zwei verschiedene Lösungswege miteinander vergleichen soll.

Die große Erkenntnis:

Die Studie zeigt uns, dass diese KI-Programme heute schon hervorragende Assistenten sein können, wenn es darum geht, Informationen aus einem Land zu suchen oder Entwürfe zu schreiben. Sie sind wie ein schneller Bibliothekar.

Aber wenn es darum geht, die Regeln von zwei verschiedenen Ländern zu vergleichen und daraus logische Schlüsse zu ziehen, sind sie noch nicht ganz so sicher wie ein erfahrener menschlicher Experte. Sie machen hier noch zu viele Fehler.

Das Fazit für die Praxis:

Man sollte diese KI-Programme also nicht blind vertrauen, wenn es um den direkten Vergleich zwischen den USA und China geht. Sie sind ein tolles Werkzeug, um die Arbeit zu erleichtern, aber der menschliche Experte (der „Chef-Regelkenner") muss am Ende immer noch alles überprüfen. Die KI ist der Assistent, aber nicht der Entscheider.

Die Forscher haben den gesamten Quiz-Wettbewerb und die Fragen kostenlos ins Internet gestellt, damit andere Forscher und Entwickler ihre eigenen KIs damit testen und verbessern können.

Sino-US-DrugQA: A Benchmark for Evaluating Large Language Models in Cross-Jurisdictional Pharmaceutical Regulation

Technische Zusammenfassung: Sino-US-DrugQA

Mehr davon

A case report on gendered biases in a Finnish healthcare AI assistant

Spine Reviews: Crowdsourcing Global Spine Expert Knowledge via Digital Ledger Technology

Individualised evoked response detection based on the spectral noise colour

Mechanistic Insights into Skin Sympathetic Nerve Activity Dynamics in Healthy Subjects Through a Two-Layer Signal-Analytical and Closed-Loop Physiological Modeling Framework

Wearable sleep staging using photoplethysmography and accelerometry across sleep apnea severity: a focus on very severe sleep apnea