MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning

Dit artikel introduceert MedInjection-FR, een groot Frans biomedisch instructiedataset dat de effectiviteit van native, synthetische en vertaalde data voor het fine-tunen van taalmodellen onderzoekt en aantoont dat native data de beste prestaties leveren, terwijl een combinatie met vertaalde data een waardevol alternatief biedt voor het overwinnen van schaarste aan native medische instructies.

Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Benoit Favre, Richard Dufour

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nogal algemene robot wilt leren om arts te spelen in het Frans. Deze robot (een 'Large Language Model') heeft al veel gelezen, maar hij weet niet precies hoe hij medische vragen moet beantwoorden of hoe hij zich moet gedragen als een echte Franse dokter.

Dit artikel, getiteld MedInjection-FR, gaat over een groot experiment om deze robot te trainen. De onderzoekers wilden weten: wat is de beste manier om deze robot medisch Frans te leren?

Ze gebruikten drie verschillende soorten 'lesmateriaal' (data) en keken welke combinatie het beste werkte. Hier is hoe ze dat deden, vertaald naar alledaagse termen:

1. De Drie Soorten Lermaterialen

Stel je voor dat je een student wilt leren koken. Je hebt drie opties:

  • De 'Native' Data (De Oude Meesters):
    Dit zijn echte, originele Franse medische teksten en examenvragen. Het is alsof je de student laat werken met echte Franse receptenboeken en lesgeeft door ervaren Franse chefs.

    • Voordeel: Het is authentiek, precies en klinkt als een echte dokter.
    • Nadeel: Er is niet heel veel van beschikbaar (het is schaars).
  • De 'Synthetische' Data (De AI-Schrijver):
    Hierbij gebruikten ze een andere, sterke AI om nieuwe vragen en antwoorden te bedenken op basis van bestaande medische dossiers. Het is alsof je een robot schrijft die zelf recepten bedenkt.

    • Voordeel: Je kunt er eindeloos veel van maken.
    • Nadeel: Soms maakt de robot fouten, klinkt het onnatuurlijk of is het niet helemaal medisch correct.
  • De 'Vertaalde' Data (De Vertaler):
    Ze namen enorme verzamelingen medische vragen uit het Engels en vertaalden ze naar het Frans. Het is alsof je Engelse receptenboeken laat vertalen door een vertaler.

    • Voordeel: Je hebt direct toegang tot enorme hoeveelheden kennis.
    • Nadeel: Soms klinkt het net niet helemaal 'Frans' (het heeft een 'vertaalaccent') of mist het de lokale nuance.

2. Het Grote Experiment

De onderzoekers trainden hun robot (een model genaamd Qwen-4B) op zeven verschillende manieren:

  1. Alleen met de echte Franse teksten.
  2. Alleen met de AI-gegenereerde teksten.
  3. Alleen met de vertaalde teksten.
  4. En verschillende combinaties daarvan (bijvoorbeeld: 50% echte teksten + 50% vertaalde teksten).

Het resultaat was verrassend duidelijk:

  • De beste solo-speler: De robot die alleen met de echte, originele Franse teksten leerde, werd de beste. Hij sprak het meest natuurlijk en gaf de meest accurate antwoorden.
  • De zwakke speler: De robot die alleen met de AI-gegenereerde teksten leerde, deed het het slechtst. Hij maakte meer fouten en klinkt minder professioneel.
  • De vertaler: De robot die alleen met vertaalde teksten leerde, deed het redelijk, maar niet perfect.
  • De winnende strategie (De Mix): De echte winnaar was een mix. Als je de echte Franse teksten combineerde met de vertaalde teksten, werd de robot zelfs nog beter dan met alleen de echte teksten!
    • De analogie: Het is alsof je een student laat werken met een paar echte Franse recepten (voor de basis en de smaak), maar je vult het curriculum aan met vertaalde internationale recepten (voor de variatie en de hoeveelheid). De echte recepten houden de kwaliteit hoog, terwijl de vertaalde recepten zorgen dat de student ook andere situaties aankan.

3. De 'Vertel-Verhaal'-Valstrik (Verbosity Bias)

Tijdens het testen merkten ze iets grappigs op. Als ze de robot vroegen om een open vraag te beantwoorden (niet meerkeuze, maar een verhaal), gaf de basis-robot (die nog niet getraind was) soms hele lange, uitgebreide antwoorden.

De 'rechter' (een andere AI die de antwoorden beoordeelde) gaf deze lange antwoorden vaak een hogere score, alsof "langer = beter" was. Maar de onderzoekers ontdekten dat dit een valstrik was: de getrainde robots gaven vaak kortere, maar juistere antwoorden. De 'rechter' werd dus soms verleid door het volume van het verhaal in plaats van de kwaliteit ervan.

Conclusie in Eén Zin

Als je een AI wilt leren om als Franse arts te denken, is echte, menselijk gemaakte data het allerbelangrijkst. Maar als je niet genoeg daarvan hebt, kun je die echte data perfect aanvullen met vertaalde Engelse data om een sterke, veelzijdige medische AI te bouwen.

Het is dus niet nodig om alleen de zeldzame, dure Franse boeken te hebben; een slimme mix van authentiek materiaal en vertaalde kennis werkt wonderlijk goed.