Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, Software-Architekten sind wie die Generalplaner eines riesigen Bauprojekts. Sie müssen entscheiden, ob ein Gebäude aus Stahlbeton oder Holz gebaut wird, wie die Stromleitungen verlaufen und welche Sicherheitssysteme eingebaut werden, bevor ein einziger Stein gesetzt wird. Früher haben nur Menschen diese Entscheidungen getroffen. Heute gibt es aber KI-Assistenten, die dabei helfen sollen.

Das Problem: Die „Super-KIs" (die sogenannten Large Language Models oder LLMs) sind wie riesige, teure Supercomputer. Sie sind extrem klug, aber sie brauchen unendlich viel Strom, kosten ein Vermögen und speichern oft Daten in der Cloud – was bei geheimen Bauplänen (Software-Architekturen) ein No-Go ist.

Deshalb suchen Ingenieure nach „Small Language Models" (SLMs). Das sind die kleinen, schlanken KIs, die auf einem normalen Laptop laufen, privat bleiben und wenig Strom verbrauchen. Die große Frage war: Sind diese kleinen KIs auch wirklich schlau genug, um komplexe Baupläne zu entwerfen, oder machen sie nur dumme Fehler?

Hier ist die Geschichte der Forschung, die in diesem Papier erzählt wird, einfach erklärt:

1. Der Test: Wer kann den besten Bauplan schreiben?

Die Forscher haben 10 verschiedene kleine KIs getestet. Ihre Aufgabe war es, Architektur-Entscheidungs-Protokolle (ADRs) zu schreiben. Das sind Dokumente, in denen erklärt wird: „Warum haben wir diese Technologie gewählt und warum nicht die andere?"

Sie haben die KIs auf drei Arten geprüft:

Ohne Hilfe (Zero-Shot): Die KI muss den Plan aus dem Nichts erstellen.
Mit Beispielen (Few-Shot): Die KI bekommt zwei gute Beispiele gezeigt, damit sie den Stil versteht.
Mit Lernen (Fine-Tuning): Die KI wird speziell auf viele dieser Pläne „trainiert", als würde sie eine Nachhilfezeit machen.

2. Die überraschenden Ergebnisse

🏗️ Die Größe zählt (aber nicht immer so, wie man denkt)

Es gibt eine magische Grenze bei 3 Milliarden Parametern (den „Gehirnzellen" der KI).

Die Großen (über 3 Mrd.): Sie sind wie erfahrene Bauleiter. Sie können sofort gute Pläne entwerfen, ohne dass man ihnen Beispiele zeigen muss. Sie verstehen die komplexen Abwägungen (z. B. „Sicherheit vs. Geschwindigkeit").
Die Kleinen (unter 2 Mrd.): Sie sind wie Bauarbeiter, die nur den Text auswendig gelernt haben. Sie schreiben sehr flüssig und grammatikalisch perfekte Sätze (das ist gut!), aber wenn man genau hinschaut, sind ihre technischen Entscheidungen oft falsch oder gefährlich. Sie halluzinieren Lösungen, die in der Realität nicht funktionieren.

🎓 Der Trick mit den Beispielen (Few-Shot)

Hier wurde es spannend! Bei manchen mittelgroßen KIs (wie dem „Phi-3-mini") war es, als würde man ihnen zwei gute Beispiele zeigen. Plötzlich wurden sie fast so gut wie die riesigen Super-KIs!

Analogie: Stell dir vor, du gibst einem Schüler ein paar Beispiel-Arbeiten. Plötzlich versteht er, was der Lehrer will, und schreibt eine viel bessere Arbeit, ohne dass er jahrelang lernen musste.
Aber: Bei manchen anderen KIs halfen die Beispiele nicht. Im Gegenteil, sie wurden verwirrt, weil die Beispiele wie „Rauschen" in ihrem kleinen Gehirn wirkten.

🎓 Das Lernen (Fine-Tuning) – Ein zweischneidiges Schwert

Wenn man die allerkleinsten KIs speziell trainiert hat, wurden sie etwas besser im Textschreiben. Aber: Das Training hat sie manchmal sogar dümmer gemacht!

Analogie: Stell dir vor, du trainierst einen Hund nur darauf, eine bestimmte Art von Ball zu fangen. Plötzlich kann er diesen einen Ball perfekt fangen, aber wenn du ihm einen anderen Ball gibst, weiß er nicht mehr, was er tun soll. Die KI hat sich zu sehr auf die Trainingsdaten spezialisiert und verliert ihr allgemeines Verständnis.

🎨 Vielfalt vs. Wahnsinn

Die Forscher haben auch geschaut, wie „kreativ" die KIs waren.

Bei den kleinen KIs bedeutete „hohe Vielfalt" oft Wahnsinn. Sie schlugen 10 verschiedene, aber völlig verrückte Lösungen vor. Das war keine kreative Exploration, sondern einfach nur Zufall.
Die größeren KIs waren weniger „wild", aber ihre Lösungen waren alle solide und durchdacht.

3. Was bedeutet das für die Zukunft? (Die Faustregeln)

Die Forscher geben jetzt eine Art Bauleiter-Ratgeber für den Einsatz dieser kleinen KIs:

Für die Großen (7 Mrd. Parameter): Lass sie einfach arbeiten! Gib ihnen die Aufgabe, und sie liefern gute Ergebnisse. Ein spezielles Training ist oft nur Geldverschwendung und kann sogar schaden.
Für die Mittelgroßen (mit wenig Speicher): Gib ihnen zwei gute Beispiele vor der Aufgabe. Das ist der beste Weg, um sie ohne teures Training extrem leistungsfähig zu machen.
Für die Kleinsten (unter 2 Mrd.): Sei vorsichtig. Sie können Texte schreiben, aber ihre technischen Entscheidungen sind oft unzuverlässig. Ein spezielles Training hilft beim Text, garantiert aber keine guten Entscheidungen.

Fazit

Dieses Papier sagt uns: Man braucht keinen riesigen Supercomputer, um Software-Architektur zu planen. Aber man muss das richtige Werkzeug für den richtigen Job auswählen.

Die kleinen KIs sind wie gute Handwerker, die man mit ein paar klaren Anweisungen (Beispielen) zu großartigen Leistungen anleiten kann. Man muss sie aber nicht blind vertrauen, als wären sie die erfahrenen Meister, die alles aus dem Kopf wissen. Mit den richtigen Regeln können sie uns helfen, Software sicherer, günstiger und datenschutzfreundlicher zu bauen – ganz ohne riesige Cloud-Rechenzentren.

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

1. Der Test: Wer kann den besten Bauplan schreiben?

2. Die überraschenden Ergebnisse

🏗️ Die Größe zählt (aber nicht immer so, wie man denkt)

🎓 Der Trick mit den Beispielen (Few-Shot)

🎓 Das Lernen (Fine-Tuning) – Ein zweischneidiges Schwert

🎨 Vielfalt vs. Wahnsinn

3. Was bedeutet das für die Zukunft? (Die Faustregeln)

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

1. Der Test: Wer kann den besten Bauplan schreiben?

2. Die überraschenden Ergebnisse

🏗️ Die Größe zählt (aber nicht immer so, wie man denkt)

🎓 Der Trick mit den Beispielen (Few-Shot)

🎓 Das Lernen (Fine-Tuning) – Ein zweischneidiges Schwert

🎨 Vielfalt vs. Wahnsinn

3. Was bedeutet das für die Zukunft? (Die Faustregeln)

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities