BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

BioChemInsight is een open-source platform dat geavanceerde AI-modellen integreert om chemische structuren en bioactiviteitsdata uit octrooien automatisch te extraheren, waardoor de tijd voor dataverwerking drastisch wordt verkort en een aanvullende chemische ruimte wordt ontsloten die niet in bestaande databases zoals ChEMBL is vertegenwoordigd.

Zhe Wang, Fangtian Fu, Wei Zhang, Lige Yan, Nan Li, Wenxia Deng, Yan Meng, Jianping Wu, Hui Wu, Wenting Wu, Gang Xu, Xiang Li, Si Chen

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

BioChemInsight: De Digitale Schatzoeker voor Nieuwe Medicijnen

Stel je voor dat je een enorme bibliotheek binnenstapt, maar dan niet met boeken, maar met duizenden patentdocumenten. Deze documenten zijn als schatkisten vol met geheime recepten voor nieuwe medicijnen. Maar hier zit een groot probleem: de recepten staan niet in duidelijke lijstjes, maar verspreid over de pagina's in de vorm van ingewikkelde chemische tekeningen en lange, saaie tabellen.

Vroeger moesten mensen (zoals chemici) deze documenten één voor één openen, de tekeningen met de hand overnemen en de cijfers in een spreadsheet typen. Dit was net als het proberen te lezen van een hele bibliotheek met een vergrootglas: het kostte weken, was vermoeiend en je maakte vaak fouten.

BioChemInsight is de slimme robot die dit allemaal voor je doet. Het is een online platform dat als een super-snel leesapparaat fungeert, maar dan met een heel specifiek talent: het kan chemische tekeningen "zien" en begrijpen, en tegelijkertijd de bijbehorende cijfers (hoe goed werkt het medicijn?) eruit halen en aan elkaar koppelen.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Drie Slimme Hulpjes

BioChemInsight is niet één grote robot, maar een team van drie specialisten die perfect samenwerken:

  • De Tekening-Scanner (DECIMER & MolNexTR):
    Stel je voor dat je een foto van een ingewikkelde Lego-constructie (een chemische structuur) hebt. Deze robot kijkt naar de foto, snijdt hem precies uit en bouwt hem direct om in een digitale bouwplaat (een SMILES-code) die computers kunnen lezen. Hij is zo goed dat hij zelfs verouderde, wazige tekeningen uit oude patenten nog kan lezen.
  • De Naam-Pluizer (GLM-4.5V):
    Vaak staat er bij een tekening alleen "Voorbeeld 1" of "Ex. 1". Deze robot kijkt naar de foto en zegt: "Ah, deze tekening hoort bij 'Voorbeeld 1'". Hij zorgt ervoor dat de naam en de tekening nooit door elkaar lopen.
  • De Cijfer-Detective (PaddleOCR & GLM-4.6):
    Nu moet de robot de cijfers vinden. "Hoe krachtig is dit medicijn?" staat vaak in kleine letters in een tabel. Deze detective leest de tekst, haalt de cijfers (zoals IC50, een maat voor kracht) en zorgt dat ze allemaal in dezelfde eenheid staan (bijvoorbeeld allemaal in nanomol), zodat je ze direct kunt vergelijken.

2. Het Grote Geheim: Waarom Patenten?

De onderzoekers ontdekten iets fascinerends. Er is al een grote, openbare database genaamd ChEMBL, waar wetenschappers hun resultaten verzamelen. Maar BioChemInsight keek naar de patenten en zag dat deze een heel andere wereld van chemische stoffen bevatten.

  • De Analogie: Stel je voor dat ChEMBL een grote supermarkt is met de meest populaire producten. Patenten zijn dan de geheime laboratoria van uitvinders die nog niet in de winkel liggen. Ze hebben unieke, nieuwe "recepten" die je in de supermarkt niet vindt.
  • Het Resultaat: Door BioChemInsight te gebruiken, krijg je toegang tot deze unieke recepten. Het vult de gaten op die de grote databases laten.

3. Wat levert het op?

Vroeger duurde het weken om de data uit een paar patenten te halen. Nu doet BioChemInsight dit in uren.

  • Snelheid: Het verandert een berg papierwerk in een kant-en-klare digitale lijst.
  • Kwaliteit: Het maakt minder fouten dan een mens die moe wordt na urenlang typen.
  • Toekomst: Wetenschappers kunnen nu sneller nieuwe medicijnen vinden, omdat ze direct zien welke chemische stoffen uit patenten misschien wel werken tegen een ziekte, zonder eerst zelf alles te hoeven uitzoeken.

Kortom: BioChemInsight is als een magische sleutel die de deuren opent naar een verborgen wereld van medicijnontdekking. Het maakt het mogelijk om de "geheime recepten" uit patenten snel, nauwkeurig en automatisch om te zetten in bruikbare kennis, zodat we sneller nieuwe behandelingen kunnen vinden voor ziektes.

De tool is gratis beschikbaar voor iedereen die wil helpen de wereld van medicijnen te verbeteren.