Semantic Search over 9 Million Mathematical Theorems

De auteurs introduceren een schaalbaar semantisch zoeksysteem voor wiskundige stellingen dat op een corpus van 9,2 miljoen stellingen is getraind en door middel van geoptimaliseerde representaties en zoekstrategieën een aanzienlijke verbetering biedt ten opzichte van bestaande methoden voor het vinden van specifieke wiskundige resultaten.

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily Ilin

Gepubliceerd Tue, 10 Ma
📖 4 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wiskunde een gigantische, eeuwenoude bibliotheek is. Maar in plaats van boeken die je gewoon kunt openen en lezen, zit deze bibliotheek vol met miljoenen losse, ingewikkelde zinnen: stellingen, lemma's en bewijzen.

Vroeger was het zoeken naar één specifieke zin in deze bibliotheek een nachtmerrie. Als je een wiskundige vraag had, moest je hele boeken doorbladeren (zoals Google Scholar of arXiv doen) om te zien of het antwoord ergens in zat. Het was alsof je een specifiek woord zocht in een heel boek, maar de zoekmachine je alleen het hele boek gaf.

Dit nieuwe onderzoek is als het bouwen van een superkrachtige "Google" voor losse wiskundige feiten.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het probleem: De "Boek"-vs.-"Zin"-dilemma

Stel je voor dat je op zoek bent naar een specifieke recept voor een taart (een stelling). De oude zoekmachines gaven je een lijst met kookboeken. Je moest dan zelf bladeren door de inhoudsopgave en de pagina's om te zien of het recept erin stond.

  • Het risico: Wiskundigen (en nu ook AI's) vinden vaak dat ze iets nieuws hebben bedacht, terwijl het al 50 jaar geleden in een boek staat. Het is alsof je een nieuwe taart uitvinden, terwijl iemand anders die al lang geleden heeft bedacht, maar je hebt het boek niet gevonden.

2. De oplossing: De "Slogan"-truc

De onderzoekers hebben een database gemaakt van 9,2 miljoen losse wiskundige stellingen. Maar wiskundige taal is vaak vol met vreemde symbolen (zoals \int of \sum) die computers moeilijk begrijpen als ze in "mensentaal" zoeken.

Om dit op te lossen, hebben ze een slimme truc gebruikt:

  • Ze hebben een slimme AI (een "robot-schrijver") gevraagd om voor elke complexe wiskundige stelling een korte, begrijpelijke slogan te schrijven.
  • Voorbeeld: In plaats van een zin vol met formules, zegt de AI: "Als je een bepaalde vorm hebt, is deze vorm altijd rond."
  • Nu kunnen mensen zoeken met gewone woorden, en de computer zoekt naar die simpele slogans in plaats van de ingewikkelde formules.

3. De zoekmachine: Een slimme bibliothecaris

Deze nieuwe zoekmachine werkt als een super-snelle bibliothecaris die:

  1. Luistert naar je vraag (bijvoorbeeld: "Is er een manier om een bolvormige ruimte te beschrijven?").
  2. Kijkt naar de "slogans" van de 9,2 miljoen stellingen.
  3. Je direct de juiste zin geeft, niet het hele boek.

Wat is het resultaat?

  • Sneller: Het vindt het antwoord in 3 seconden. Oude methoden (zoals ChatGPT of Google) duren vaak minuten of geven het verkeerde antwoord.
  • Beter: De onderzoekers hebben het getest met echte wiskundigen. Hun systeem vond het juiste antwoord in 45% van de gevallen (binnen de top 20 resultaten), terwijl de beste concurrenten (zoals Google en ChatGPT) maar rond de 20% haalden.
  • Dieper: Het kan ook kleine, onbelangrijke regels vinden die diep in een boek staan, die een gewone zoekmachine nooit zou vinden omdat ze niet in de samenvatting staan.

4. Waarom is dit belangrijk?

  • Voor mensen: Wiskundigen hoeven niet meer uren te zoeken in PDF-bestanden. Ze kunnen direct zien of hun idee al bestaat.
  • Voor AI: Als robots (AI's) wiskundige bewijzen moeten maken, kunnen ze nu direct de juiste "recepten" (stellingen) ophalen om hun redenering op te bouwen, in plaats van te gissen.

Kortom:
De onderzoekers hebben een gigantische database gebouwd van 9 miljoen wiskundige feiten, ze vertaald naar simpele menselijke zinnen, en een zoekmachine gemaakt die precies weet wat je zoekt. Het is alsof je van een bibliotheek waar je alleen de boekenkast mag zien, overschakelt naar een bibliotheek waar je direct de juiste zin op een kaartje krijgt.

Je kunt deze zoekmachine nu zelf proberen op theoremsearch.com.