Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

Dit paper introduceert de Infinite Problem Generator (IPG), een agentisch framework dat verifieerbare natuurkundeproblemen genereert door oplossingen als uitvoerbare Python-code te construeren, waarmee schaalbaar en waarheidsgetrouw trainingsdata voor complexe redenering wordt gegenereerd.

Aditya Sharan, Sriram Hebbale, Dhruv Kumar

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grootmeester wilt trainen in het oplossen van lastige natuurkundeproblemen, zoals die op het Indiase JEE-examen (een van de moeilijkste toelatingstests ter wereld). Het probleem is: er zijn niet genoeg goede, controleerbare oefeningen om deze AI te leren. Bestaande methoden zijn vaak als een slechte vertaler: ze klinken goed, maar de wiskunde klopt niet, of ze maken dingen op die in de echte wereld onmogelijk zijn.

De auteurs van dit papier hebben een oplossing bedacht: de Infinite Problem Generator (IPG). Laten we uitleggen hoe dit werkt met een paar creatieve vergelijkingen.

1. Het Probleem: De "Goochelaar" vs. De "Rekenmachine"

Normaal gesproken laten we AI's (zoals grote taalmodellen) wiskundige problemen bedenken door ze te laten "gokken" op het volgende woord. Dit is alsof je een goochelaar vraagt om een wiskundig bewijs te maken. Hij kan prachtige zinnen maken, maar als je de getallen invult, klopt het antwoord vaak niet. Het is "hallucineren": het ziet eruit als waarheid, maar is het niet.

2. De Oplossing: "Formules als Code"

De auteurs doen iets heel slim: ze behandelen natuurkundewetten niet als tekst, maar als rekenmachine-functies.

  • De Vergelijking: Stel je voor dat je een kok bent die een recept bedenkt. In plaats van alleen te zeggen "voeg wat zout toe" (wat vaag is), geef je de kok een exacte, programmeerbare instructie: voeg_zout(5, gram).
  • In de IPG: Elke natuurkundevormel (zoals F=m×aF = m \times a) is een stukje Python-code dat altijd werkt. De AI mag niet zomaar een formule uit zijn hoofd verzinnen; hij moet een bestaande, geteste "rekenmachine-functie" uit de kast halen en gebruiken.

3. Hoe werkt het proces? (De "Agent" Workflow)

De IPG is als een slimme chef-kok met drie helpers die samenwerken:

  1. De Analyseur (De Smaakmaker): Hij neemt een bestaand, goed probleem (een "zaadje") en bedenkt nieuwe verhalen.
    • Voorbeeld: Het originele probleem gaat over een vallende appel. De analyseur denkt: "Laten we dit verhaal veranderen naar een rolende bowlingbal, of een vliegende raket, of een draaiende carrousel." De natuurkunde blijft hetzelfde, maar het verhaal wordt anders.
  2. De Generator (De Bouwer): Hij maakt het nieuwe probleem op basis van het verhaal, maar hij moet strikt de "rekenmachine-functies" gebruiken die de analyseur heeft geselecteerd. Hij mag geen nieuwe, onbekende formules uit de lucht plukken.
  3. De Verificator (De Kwaliteitscontroleur): Dit is het belangrijkste deel. Voordat het probleem wordt opgeslagen, draait de AI het echt als een computerprogramma.
    • Als de code een fout geeft (bijvoorbeeld: "je deelt door nul" of "de massa is negatief"), wordt het probleem direct weggegooid.
    • Alleen als de code perfect draait en een logisch antwoord geeft, wordt het probleem bewaard.

Dit is alsof je elke nieuwe puzzel eerst laat oplossen door een robot voordat je hem aan de mens geeft. Als de robot faalt, is de puzzel onbruikbaar.

4. Het Resultaat: De "Complexiteit Blauwdruk"

De auteurs ontdekten iets fascinerends. Ze zagen dat de lengte van de computercode die nodig is om een probleem op te lossen, perfect overeenkomt met hoe moeilijk het probleem is.

  • De Metafoor: Stel je voor dat je een huis bouwt. Als je maar één muur moet bouwen, heb je weinig materialen nodig (kort code). Als je een kasteel moet bouwen met torens en trappen, heb je veel meer materialen en een langere bouwinstructie nodig (lange code).
  • De ontdekking: Ze vonden een rechte lijn: hoe meer natuurkundewetten (formules) er in een probleem zitten, hoe langer de code wordt. Dit betekent dat ze nu precies kunnen controleren hoe moeilijk een probleem is, puur door naar de lengte van de code te kijken. Ze hoeven niet meer te gokken of een mens het moet beoordelen.

5. Waarom is dit belangrijk?

Ze hebben een dataset gemaakt genaamd ClassicalMechanicsV1 met 1.335 unieke problemen.

  • Geen "Goocheltrucs": Omdat alles door code is gecontroleerd, zijn er geen onmogelijke situaties (zoals een auto die sneller gaat dan het licht).
  • Leerbaar: De dataset bevat niet alleen de vraag en het antwoord, maar ook de stap-voor-stap "rekenmachine-instructies". Dit is goud waard om AI's te trainen om echt na te denken, in plaats van alleen maar te raden.
  • Schaalbaar: Ze begonnen met 165 goede voorbeelden en hebben er 1.335 van gemaakt. Het systeem kan oneindig doorgaan met het maken van nieuwe, gevarieerde problemen.

Samenvatting in één zin

De auteurs hebben een "robot-kok" gebouwd die natuurkundeproblemen bakt, waarbij elke stap wordt gecontroleerd door een strikte rekenmachine, zodat ze een eindeloze voorraad van 100% betrouwbare, leerzame en gevarieerde oefeningen kunnen creëren voor AI's die willen leren redeneren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →