A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch, ingewikkeld machinekamer hebt, vol met duizenden schroeven, buizen en draden. Dit is een groot computerprogramma (zoals de software voor een ruimteschip of een besturingssysteem). Je wilt er 100% zeker van zijn dat deze machine nooit zal crashen, niet zal exploderen en geen fouten zal maken terwijl hij draait.

In de wereld van software noemen we dit verificatie. Het probleem is: deze machines zijn zo groot dat zelfs de slimste computers (en menselijke experts) het moeilijk vinden om alles in één keer te controleren. Ze raken de draad kwijt of zien kleine foutjes over het hoofd.

Deze paper introduceert Preguss, een slimme nieuwe manier om dit probleem op te lossen. Het is als het hebben van een super-intelligente assistent (een AI) die samenwerkt met een strenge inspecteur.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote Boek" Uitdaging

Stel je voor dat je een boek van 1000 pagina's moet controleren op fouten.

De oude manier: Je probeert het hele boek in één keer te lezen. Je hersenen (of de computer) raken overbelast. Je mist details.
De AI-problematiek: Moderne AI's (zoals ChatGPT) zijn slim, maar ze kunnen niet goed een heel boek in één keer "in hun hoofd" houden. Ze raken de draad kwijt als het te groot is. Ze kunnen ook niet goed begrijpen hoe hoofdstuk A precies invloed heeft op hoofdstuk Z, als die ver weg staan.

2. De Oplossing: Preguss (De Slimme Splits-En-Heers Strategie)

Preguss gebruikt een slimme truc: "Splits en Heers". In plaats van het hele boek in één keer te lezen, breekt het het probleem op in kleine, beheersbare stukjes.

Het proces heeft twee hoofdfases:

Fase 1: De Inspecteur vindt de "Gevaarlijke Plekken" (De Delen)

Eerst laat Preguss een strenge, traditionele inspecteur (een "statische analyzer") het programma scannen. Deze inspecteur is niet slim, maar wel heel grondig. Hij zegt: "Hier, bij schroef 42, zou er een probleem kunnen zijn. Misschien breekt er iets."

In plaats van dat de AI nu het hele programma moet uitleggen, zegt Preguss: "Oké, we focussen alleen op schroef 42 en de buizen die direct daarheen lopen."

Analogie: Het is alsof je een grote stad hebt. In plaats van te proberen het hele verkeer in de stad te regelen, zegt de AI: "We focussen ons vandaag alleen op het kruispunt bij de school. Wat gebeurt er daar?"

Fase 2: De AI bouwt de "Regels" (Het Veroveren)

Nu komt de slimme AI (het LLM) in actie, maar dan op een heel specifieke manier.

De AI krijgt alleen de informatie over dat ene kruispunt (schroef 42) en de directe omgeving.
De AI moet een regelschrift (een specificatie) schrijven dat zegt: "Als je hier komt, moet je zeker weten dat de snelheid onder de 50 km/u is."
De slimme truc: De AI kijkt niet alleen naar de plek zelf, maar ook naar de buizen die daar naartoe lopen (andere functies). Als die buizen een verkeerde druk hebben, moet de AI dat ook in de regels zetten.

Als de AI een goede regel schrijft, controleert de strenge inspecteur of het klopt.

Klopt het? Geweldig! We zijn een stap verder.
Klopt het niet? De inspecteur geeft feedback: "Nee, die regel is te streng, of te vaag." De AI leert van deze feedback en probeert het opnieuw. Dit gaat door tot het perfect is.

3. Waarom is dit zo speciaal?

In het verleden probeerden AI's vaak het hele programma in één keer te "begrijpen" en regels te schrijven. Dat werkte niet goed voor grote projecten.

Preguss werkt als een bouwmeester die een gigantisch kasteel bouwt:

Hij bouwt niet het hele kasteel in één dag.
Hij bouwt eerst de fundering van de toren.
Dan de muren van die toren.
Dan het dak.
En hij gebruikt de regels van de vorige stap om de volgende stap te bouwen.

Dit betekent dat Preguss programma's van 1000 regels (of zelfs meer) kan verifiëren, terwijl andere methoden al vastliepen bij 100 regels.

4. Het Resultaat in het Dagelijks Leven

De auteurs hebben dit getest op echte, grote software, zoals:

De software voor een ruimteschip (SAMCODE).
Besturingssystemen voor internet van dingen (Contiki).

Wat deden ze?

Minder menselijk werk: Mensen moesten 80% tot 89% minder tijd besteden aan het handmatig controleren van regels. De AI deed het zware werk.
Echte fouten gevonden: In de ruimteschipssoftware vond Preguss 6 echte fouten die eerder waren gemist. Dit zijn fouten die hadden kunnen leiden tot een crash of een mislukte missie.
Schaalbaarheid: Het werkt ook voor programma's die duizenden regels lang zijn.

Samenvatting in één zin

Preguss is als een slimme teamleider die een gigantisch, complex project opdeelt in kleine, makkelijke taken, waarbij een AI en een strenge inspecteur samenwerken om elke kleine taak perfect te maken, zodat het hele grote project veilig en foutloos is.

Het maakt het mogelijk om software te bouwen die we kunnen vertrouwen, zelfs als die software enorm groot en complex is.

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

1. Het Probleem: De "Grote Boek" Uitdaging

2. De Oplossing: Preguss (De Slimme Splits-En-Heers Strategie)

Fase 1: De Inspecteur vindt de "Gevaarlijke Plekken" (De Delen)

Fase 2: De AI bouwt de "Regels" (Het Veroveren)

3. Waarom is dit zo speciaal?

4. Het Resultaat in het Dagelijks Leven

Samenvatting in één zin

Titel

1. Het Probleem

2. Methodologie: Preguss

Fase 1: Potentiële RTE-geleide Constructie en Prioritering (Divide)

Fase 2: Fijnmazige Interprocedurale Specificatiesynthese (Conquer)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

1. Het Probleem: De "Grote Boek" Uitdaging

2. De Oplossing: Preguss (De Slimme Splits-En-Heers Strategie)

Fase 1: De Inspecteur vindt de "Gevaarlijke Plekken" (De Delen)

Fase 2: De AI bouwt de "Regels" (Het Veroveren)

3. Waarom is dit zo speciaal?

4. Het Resultaat in het Dagelijks Leven

Samenvatting in één zin

Titel

1. Het Probleem

2. Methodologie: Preguss

Fase 1: Potentiële RTE-geleide Constructie en Prioritering (Divide)

Fase 2: Fijnmazige Interprocedurale Specificatiesynthese (Conquer)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities