Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

Diese Studie stellt einen kosteneffizienten Multimodal Modular Chain of Thoughts (MMCoT)-Ansatz vor, der Vision-Language-Modelle nutzt, um durch dekomponierte, strukturierte Schlussfolgerungen die Energieeffizienzklasse von Gebäuden aus begrenzten visuellen Daten genauer zu schätzen als herkömmliche Prompting-Methoden.

Zhen Peng, Peter J. Bentley

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der teure Energie-Check

Stellen Sie sich vor, Sie wollen wissen, wie energieeffizient ein Haus ist. Dafür gibt es im Englischen das EPC (Energy Performance Certificate). Das ist wie ein „Nährwert-Label" für Gebäude, das anzeigt, ob das Haus ein Energie-Verbrauchsmonster (Klasse G) oder ein Energiesparwunder (Klasse A) ist.

Das Problem: Um dieses Label zu bekommen, muss ein teurer Experte mit einem Koffer voller Messgeräte zum Haus kommen, alles abmessen und Daten eingeben. Das kostet viel Geld und Zeit. In vielen Teilen der Welt kann sich das niemand leisten, oder es gibt gar keine Experten vor Ort. Ohne diese Daten können wir nicht wissen, welche Häuser saniert werden müssen, um das Klima zu schützen.

Die Lösung: Ein KI-Assistent, der „schlau nachdenkt"

Die Forscher Zhen Peng und Peter J. Bentley haben eine clevere Idee entwickelt: MMCoT (Multimodal Modular Chain of Thoughts).

Stellen Sie sich diese KI nicht als einen riesigen, alles wissenden Superhirn vor, das einfach nur ein Foto sieht und sofort die Antwort schreit. Das funktioniert bei komplexen Aufgaben wie dem EPC oft nicht gut. Stattdessen haben sie die KI wie einen guten Handwerker mit einer Checkliste trainiert.

Wie funktioniert das? (Die „Kette der Gedanken")

Statt das Haus auf einen Schlag zu bewerten, geht die KI in fünf kleinen Schritten vor, genau wie ein Experte, der sich Notizen macht:

  1. Schritt 1: Das Alter schätzen.

    • Die Aufgabe: Die KI schaut sich das Foto der Fassade an. Ist es ein altes Backsteinhaus oder ein moderner Betonklotz?
    • Der Trick: Sie bekommt hier ein paar Beispielfotos (wie ein Lehrbuch) gezeigt, um zu lernen, wie alte und neue Häuser aussehen.
    • Das Ergebnis: „Das Haus ist wahrscheinlich aus den 1950ern."
  2. Schritt 2: Die Fenster prüfen.

    • Die Aufgabe: Die KI schaut sich ein Foto der Fenster an. Sind sie einfach oder doppelt verglast?
    • Der Clou: Die KI weiß jetzt schon, dass das Haus aus den 1950ern ist (aus Schritt 1). Das hilft ihr! Ein Haus aus den 50ern hat oft andere Fenster als eines aus den 2020ern. Sie nutzt die Information aus Schritt 1 als Hinweis, aber schaut trotzdem genau hin.
  3. Schritt 3: Die Heizung finden.

    • Die Aufgabe: Die KI sucht auf Fotos nach Heizkörpern oder Öfen.
    • Der Clou: Sie kombiniert wieder alles: „Es ist ein altes Haus (Schritt 1) mit bestimmten Fenstern (Schritt 2), also ist es wahrscheinlich eine alte Gasheizung und nicht eine moderne Wärmepumpe." Auch hier bekommt sie wieder Beispielfotos zur Hilfe.
  4. Schritt 4: Das Licht checken.

    • Die Aufgabe: Schaut die KI auf Fotos von Innenräumen, sieht sie moderne LED-Lampen oder alte Glühbirnen?
  5. Schritt 5: Die Gesamtbewertung.

    • Die Aufgabe: Jetzt fasst die KI alle ihre kleinen Notizen zusammen. „Altes Haus + alte Fenster + alte Heizung + alte Lampen = Wahrscheinlich Klasse E."
    • Sie nutzt alle vorherigen Schritte, um eine fundierte Gesamtschätzung abzugeben.

Warum ist das besser als andere Methoden?

Frühere KI-Versuche haben versucht, das Haus auf einen Schlag zu bewerten („Schau auf das Bild, sag mir die Klasse!"). Das war wie ein Schüler, der eine Matheaufgabe lösen soll, ohne den Rechenweg aufzuschreiben. Oft rät er falsch.

Die neue Methode (MMCoT) ist wie ein Schüler, der seine Arbeit zeigt. Er rechnet Schritt für Schritt. Wenn er bei Schritt 1 (Alter) einen kleinen Fehler macht, kann er das in Schritt 5 (Gesamtbewertung) teilweise korrigieren, weil er die Logik der einzelnen Schritte versteht.

Das Ergebnis: Günstig und clever

Die Forscher haben das an 81 Häusern in Großbritannien getestet.

  • Kosten: Ein echter Experte kostet vielleicht 100 Euro. Diese KI kostet pro Haus nur etwa 5 Cent (in Form von Rechenleistung).
  • Genauigkeit: Sie ist deutlich besser als andere KI-Modelle, die nur „raten".
  • Fehler: Wenn die KI falsch liegt, liegt sie meistens nur einen Schritt daneben (z. B. Klasse D statt Klasse C), nicht komplett daneben (z. B. Klasse D statt Klasse A). Das ist für eine erste Einschätzung völlig in Ordnung.

Fazit

Diese Forschung ist wie ein digitaler Energie-Berater für die Armen. Sie braucht keine teuren Messgeräte und keine großen Datenbanken. Sie nimmt ein paar Fotos vom Handy, denkt logisch Schritt für Schritt nach und gibt eine gute Einschätzung ab. Das hilft, Millionen von Häusern weltweit zu identifizieren, die saniert werden müssen, um das Klima zu retten – und das ganz ohne teure Experten vor Ort.