Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Deze paper introduceert een neurosymbolisch verificatiekader dat de logische consistentie van door Vision-Language Models gegenereerde radiologierapporten garandeert door diagnostische claims te verifiëren met een SMT-oplosser, waardoor hallucinaties worden geëlimineerd en de klinische nauwkeurigheid wordt verbeterd.

Vikash Singh, Debargha Ganguly, Haotian Yu, Chengwei Zhou, Prerna Singh, Brandon Lee, Vipin Chaudhary, Gourav Datta

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat onvoorspelbare assistent-arts hebt die een computer is. Deze computer kijkt naar röntgenfoto's van longen en schrijft vervolgens een verslag voor de echte arts. Hij is snel, beleefd en schrijft vloeiende zinnen. Maar hier zit het probleem: soms zegt hij dingen die niet logisch kloppen. Hij ziet misschien een vlekje op de foto, maar schrijft in zijn conclusie dat de patiënt een gebroken bot heeft, terwijl dat nergens voor staat. Of hij ziet een duidelijk gebroken bot, maar zegt in zijn conclusie: "Ik zie niets."

Deze paper (wetenschappelijk artikel) introduceert een digitale "waarheidscontroleur" om ervoor te zorgen dat deze computer-assistent niet alleen goed klinkt, maar ook logisch correct redeneert.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vlotte Leugenaar"

Huidige AI-modellen (zoals die in dit artikel getest worden) werken als een schrijver die alleen naar de volgende woordkansen kijkt. Als ze een foto zien, proberen ze een tekst te maken die klinkt als een medisch verslag.

  • Het risico: Ze kunnen een heel mooi verslag schrijven dat er perfect uitziet, maar vol zit met logische fouten.
  • De oude manier om dit te testen: Wetenschappers keken vroeger of de AI-tekst leek op een menselijk verslag (woorden tellen). Maar dat werkt niet goed. Als de AI schrijft "er is een beetje vocht in de longen" en de mens schrijft "er is een pleurale effusie", zijn ze hetzelfde, maar telt de computer dat als een fout. En als de AI een vreselijke logische fout maakt maar wel dezelfde woorden gebruikt, denkt de computer dat het goed is.

2. De Oplossing: De "Logische Politieagent"

De auteurs van dit artikel hebben een nieuw systeem bedacht dat ze een neuro-symbolische verificatie noemen. Laten we het vergelijken met een rechter die een getuige ondervraagt.

Het proces werkt in drie stappen:

  • Stap 1: De Vertaler (Autoformalisatie)
    De AI schrijft zijn verslag in gewone taal (bijv. "De hoek van het borstvlies is afgerond"). De "rechter" (een speciaal computerprogramma) vertaalt deze zinnen direct naar een strikt logisch taal (als een wiskundige vergelijking).

    • Voorbeeld: "Afgeronde hoek" wordt omgezet in een simpele code: HOEK_AFGEROND = WAAR.
  • Stap 2: De Regelboek-Check (De Kennisbank)
    Er is een digitaal boek met medische regels, gemaakt door echte artsen.

    • De regel: "ALS HOEK_AFGEROND = WAAR, DAN MOET LONGVOCHT = WAAR."
      Dit is de basis van de logica.
  • Stap 3: De Rechter (De Z3 Solver)
    Nu komt de echte magie. De computer kijkt naar wat de AI heeft gezien (de feiten) en vraagt zich af: "Is de conclusie die de AI treedt, een logisch gevolg van deze feiten?"
    De computer gebruikt een wiskundige motor (een 'solver') om dit 100% zeker te maken. Er is geen gokken meer.

3. Wat Ontdekt de Rechter?

Met dit systeem kunnen ze drie soorten fouten vinden die de oude methoden nooit zagen:

  1. De "Stochastische Hallucinator": De AI zegt: "De patiënt heeft longkanker," terwijl er op de foto niets staat dat daarop wijst. De rechter zegt: "Fout! Je hebt geen bewijs voor deze conclusie."
  2. De "Angstige Observer": De AI ziet duidelijk longkanker op de foto, maar durft het niet in de conclusie te zetten. De rechter zegt: "Fout! Je hebt het bewijs gezien, maar je concludeert niets. Dat is ook fout."
  3. De "Logische Consistente": De AI ziet het bewijs én trekt de juiste conclusie. De rechter zegt: "Goed gedaan!"

4. Het Resultaat: Een Veiligere AI

De auteurs hebben dit getest op zeven verschillende AI-modellen met duizenden röntgenfoto's.

  • Ze ontdekten dat veel modellen, die op papier heel goed leken, in feite vaak logische fouten maakten.
  • Door deze "rechter" na te laten kijken, konden ze de fouten eruit filteren.
  • Het resultaat: De AI werd iets minder "volledig" (soms liet hij een diagnose weg als het bewijs niet 100% klopte), maar wat hij wel zei, was veel betrouwbaarder en veiliger.

Samenvattend in één zin

Stel je voor dat je een assistent hebt die verslagen schrijft; in plaats van te kijken of de tekst mooi klinkt, laat je nu een wiskundige controleur kijken of de conclusies echt logisch volgen uit de feiten, zodat je zeker weet dat de assistent niet uit zijn duim zuigt.

Dit maakt AI in de geneeskunde niet alleen slimmer, maar vooral verantwoordelijker.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →