Kann man zu Energiefragen recherchieren mit einem KI-Chatbot wie Chat-GPT oder Bard?

Erschienen am 27.08.2023 im RP-Energie-Blog (als E-Mail-Newsletter erhältlich!)

Permanente Adresse: https://www.energie-lexikon.info/rp-energie-blog_2023_08_27.html

Autor: Dr. Rüdiger Paschotta, RP-Energie-Lexikon, RP Photonics AG

Inhalt: Bei Recherchen zu Energiefragen setzen sicherlich viele vermehrt KI-Systeme ein. Gerade im Energiebereich kann das aber sehr leicht schiefgehen. Hier wird erklärt, warum das so ist, und ob das bald besser werden könnte.

Seit dem Herbst 2022 gibt es einen riesigen Hype um die Künstliche Intelligenz (KI), vor allem weil diese jetzt einer breiten Öffentlichkeit zugänglich ist, vor allem in Form von Chatbots wie Chat-GPT und Google Bard. Was in den letzten Jahren mit sogenannten großen Sprachmodellen (LLM = large language models) möglich geworden ist, wirkt auch auf mich verblüffend. Man kann Fragen aus allen möglichen Fachgebieten stellen, auch in verschiedenen Sprachen, und bekommt umgehend Antworten, die in verschiedener Hinsicht durchaus hochwertig wirken.

Vor allem ist die sprachliche Qualität fast immer einwandfrei, und die Argumentation wirkt zumindest auf den ersten Blick meist schlüssig und faktenbasiert. Besonders beeindruckend ist, dass man sich oft verstanden fühlt. Gerade wenn man das Grundprinzip dieser Sprachmodelle erfasst hat (dazu mehr weiter unten), kann man sehr darüber staunen, wie gut das wirklich funktioniert.

Doch viele Menschen scheren sich kaum darum, wie solche Modelle funktionieren und was prinzipbedingt deren Stärken und Schwächen sind. Sie tippen einfach munter ein, was sie gerade interessiert – sicher auch zu Energiefragen, die ja seit der aktuellen Energiekrise nochmals mehr Leute bewegen. Es sollte zwar inzwischen hinreichend bekannt sein, dass diese KIs häufig mit ungenauen, teils gar halluzinierten Aussagen täuschen. Trotzdem ist man durch dieses Wissen keineswegs vor Täuschungen gefeit – umso weniger, je schwerer man die Aussagen selbst überprüfen kann.

Ein Test: Kesselwasservolumen und Energieeffizienz

Ich habe gerade eine Leserzuschrift verarbeitet zur Frage, inwieweit das Kesselwasservolumen eines Heizkessels für dessen Energieeffizienz wichtig ist. Interessehalber habe ich einige Fragen in diesem Zusammenhang zunächst mal in Chat-GPT eingegeben, dann auch in Bard. Die Erfahrungen damit waren bei beiden etwa dieselben:

Alle ausgegebenen Sätze waren in einwandfreiem Deutsch formuliert.
Beide Modelle erkannten richtig, dass die Kesselwassermenge für die Wärmespeicherkapazität des Kessels von entscheidender Bedeutung ist.
Schwierig wurde es dann aber bei der Bewertung, wie sich eine höhere Wärmekapazität des Kessels konkret auswirkt:
- "Das bedeutet, dass der Kessel beim Start nicht so viel Energie benötigt, um das Wasser zu erwärmen, da ein Teil der Wärme bereits im Wasser gespeichert ist."
- Das ist zumindest ungenau (was genau ist mit "Start" gemeint: ein Brennerstart? Die erste Inbetriebnahme? Der Beginn der Heizperiode?), aus meiner Sicht auch irreführend. Natürlich wird ein Kessel mit geringer Wärmekapazität schneller (mit weniger Energiezufuhr) warm.
- "Schutz vor Überhitzung": denkbar, aber in der Praxis wohl kein Thema.
- "Energieeffizienz bei niedriger Last: Bei Heizkesseln, die häufig bei niedriger Last betrieben werden, kann eine größere Wassermenge dazu beitragen, dass der Kessel seltener ein- und ausgeschaltet wird (Takten)."
- Das stimmt absolut für alte Heizkessel, wo der Brenner in aller Regel nicht in der Leistung regelbar ist und deswegen ein Taktbetrieb nötig ist. Jedoch sind viele moderne Heizkessel mit einem modulierenden Brenner ausgestattet, und dort gibt es Taktbetrieb nur bei sehr geringer Leistungsanforderung, und dann immer noch mit viel geringerer Schalthäufigkeit als ohne Modulation. Das dürfte die Effizienz am Ende meist kaum mehr verschlechtern.
- "Eine zu geringe Kesselwassermenge führt dazu, dass das Kesselwasser schnell erwärmt werden muss. Dies erfordert einen höheren Energieverbrauch und führt zu einer höheren Abgastemperatur."
- Das Wasser muss nicht schneller erwärmt werden, sondern wird bei gegebener Leistung schneller warm! Und die Abgastemperatur wird nicht höher, solange man keine höhere Kesseltemperatur als nötig erreicht.
- "Erhöhter Energieverbrauch beim Start: Wenn der Kessel nach einer längeren Abschaltzeit gestartet wird, muss eine größere Wassermenge natürlich mehr erwärmt werden, was mehr Energie erfordert. Dies ist jedoch meist nur ein einmaliger Energieverbrauch und kann durch die oben genannten Vorteile über die Laufzeit des Kessels hinweg kompensiert werden."
- Von wegen einmalig: Beispielsweise bei der Warmwasserbereitung im Sommer ist ein hohes Kesselwasservolumen jedes Mal von Nachteil.
- Nur ganz am Rande gestreift wurde von beiden Modellen, dass ein großes Kesselwasservolumen mit einer großen Bauform einhergeht, die in aller Regel entsprechend größere Wärmeverluste aufweist (selbst mit guter Wärmedämmung). Und gerade diese Stillstandsverluste sind für die sogenannte jahreszeitbedingte Raumheizungseffizienz von hoher Bedeutung.

Kompetente Fachleute wissen, dass z. B. eine moderne modulierende Gastherme mit ihrem viel kleineren Kesselwasservolumen im Vergleich zu einem alten Heizkessel viel effizienter ist, und dass dies nicht nur an der heute üblichen Brennwertnutzung liegt, sondern zum guten Teil gerade an der kompakten Bauform. Diese hat übrigens auch andere Vorteile: Sie verbraucht weniger Material, benötigt weniger Platz und ist einfacher zu montieren und zu demontieren. Wer sich dagegen auf Chat-GPT und Bard verlässt, könnte sich für einen Kavenzmann alter Schule entscheiden. Er würde damit zuerst bei der Installation und dann jedes Jahr im Betrieb viel Geld verlieren und das Klima unnötig belasten. (Es ist bedauerlich, dass es auch Fachleute gibt, die immer noch entsprechende Ratschläge geben – basierend vielleicht auf einem diffusen Gefühl, dass mehr Masse einfach besser sei.)

Ist das allgemein so?

Der oben beschriebene Test zeigte also eine ziemlich schlechte Performance der KI-Systeme, die man als solche aber nur mit ausreichendem Fachwissen erkennen kann. Ähnlich war es bei einem zweiten Test zur Wirtschaftlichkeit von Solarstromspeichern, wo zumindest Bard davon ausging, "dass sich ein Solarstromspeicher für Privathaushalte in den meisten Fällen lohnt". Eine genauere Nachfrage zu den Grundlagen einer Abschätzung der Amortisierbarkeit brachte völlig unrealistische Zahlenangaben (z. B. ein geschätzter Umsatz von 500 bis 600 Kilowattstunden pro Jahr und kWh Speicherkapazität, realistisch sind aber eher 200 kWh) und darauf basierend nicht weiter nachvollziehbare Berechnungen – sicher zur großen Freude derjenigen, die solche Speicher verkaufen, aber weit weg von einer realistischen Einschätzung.

Um die Leistung dieser Maschinen im Energiebereich umfassend beurteilen zu können, müsste man sicherlich sehr systematische Tests durchführen und nicht nur zwei kleine Stichproben wie oben beschrieben. Aber der Test unterstützt schon recht deutlich die folgende Warnung:

Verlassen Sie sich bei Recherchen z. B. im Energiebereich keineswegs einfach auf Aussagen irgendeiner KI, gar noch als Grundlage für große Investitionen! Das kann böse ins Auge gehen.

Übrigens habe ich selbst in den letzten Monaten etliche andere Tests in meinem anderen Fachbereich durchgeführt: in der Photonik, insbesondere in der Laserphysik und Lasertechnologie. Im Schnitt waren die Resultate deutlich besser als bei den Heizkesseln, aber auch hier verhedderte sich die KI bei spezielleren Fragen z. T. enorm, gerade wenn ich sie mit kritischen Nachfragen in die Enge trieb. Sogar offensichtlich unsinnige oder widersprüchliche Aussagen kamen öfters vor.

Woran liegt es?

Um die ziemlich variierende Leistung solcher Systeme (großer Sprachmodelle) in Bezug auf fachliche Korrektheit zu verstehen, muss man ihre Funktionsweise im Blick haben. Sie sind nicht etwa wie frühere Expertensysteme direkt so programmiert, dass sie auf bestimmte Eingaben in vordefinierter Weise reagieren. Vielmehr basieren sie auf einer riesigen Menge statistischer Daten, die durch Verarbeitung extrem großer Mengen von Texten (das Training) gewonnen wurden. Grundlegend schätzen sie jeweils die Wahrscheinlichkeit ab, mit der ein bestimmtes Wort auf den bereits erzeugten Text folgt, und wählen bevorzugt die wahrscheinlichste Variante aus. Letztendlich bilden sie damit in etwa nach, wie typischerweise in den verdauten Trainingstexten bzgl. Grammatik und Stil formuliert worden wäre. Darüber hinaus führt dies zu Aussagen, die häufig (aber eben längst nicht immer) inhaltlich die vorherrschende Meinung widerspiegeln.

Woher stammen nun die für das Training verwendeten Texte? Teils aus Büchern, aber zu einem großen Teil auch schlicht aus dem Internet, weil man anders kaum an die benötigten riesigen Mengen von Text kommt. Daraus ergibt sich das Problem "Garbage in, garbage out": Die Antworten können nicht klüger sein als das verwendete Textmaterial!

Im Energiebereich ist das besonders heikel, weil hier so viele mitreden (bzw. schreiben), die allzu viel an Qualität vermissen lassen:

Viele durchschauen die Materie mangels Ausbildung ganz unzureichend. Sie nehmen irgendwo auf, was ihnen plausibel scheint, auch wenn es ziemlich schräg sein kann.
Andere müssen aus geschäftlichen Gründen z. B. eine Technologie anpreisen und deren Nachteile möglichst unauffällig übergehen.
Dann gibt es noch Politiker, die diverse nicht unbedingt sachlich fundierte Aussagen in die Welt setzen, sowie von Wirtschaftsinteressen (etwa über Werbekunden oder der Chefetage) getriebene Journalisten.

Beispielsweise sind gewisse unsinnige Behauptungen – etwa die hohe Energieersparnis durch Verwendung schwerer Töpfe und Pfannen wegen deren Wärmespeicherfähigkeit – anscheinend nicht auszurotten; anscheinend wird Energiespeicherung von vielen als ein so faszinierendes Phänomen empfunden, dass Speicherfähigkeit grundsätzlich als positiv bewertet wird, auch wo sie in Wahrheit eher schadet oder zumindest keinen Nutzen hat. Diese verbreiteten Fehleinschätzungen beeinflussen dann eben jede damit trainierte KI. Generell dürfte der größte Teil des Trainingsmaterials von zweifelhafter Qualität sein.

Im wissenschaftlichen Bereich funktioniert es deutlich besser, obwohl es dort wohl weniger Trainingsmaterial gibt. In diesem Bereich ist eben viel weniger Geschwafel und Desinformation im Netz. Trotzdem: Wo es um die wirklich interessanten (nämlich nicht schon allgemein bekannten) Dinge geht, wird es rasch kritisch. Da wird dann eben oft dahergefaselt wie von Leuten, die nicht einfach eingestehen können, dass sie die Sache nicht beurteilen können.

Fazit

Meine Tests bestätigen voll, was man ohnehin aufgrund des Funktionsprinzips der Sprachmodelle erwarten sollte: Für solide Recherchen eignen sich solche KI-Systeme bislang keinesfalls. Nun mag mancher einwenden, dass die technische Entwicklung doch rasant voranschreitet und es deswegen in ein, zwei Jahren schon viel besser funktionieren könnte. Das glaube ich aber nicht, da das Grundproblem des schlechten Trainingsmaterials sich nicht mit raffinierterer Programmierung lösen lässt. Man wird zwar vermutlich mit der Zeit einsehen, dass man das Trainingsmaterial nicht einfach kostenlos aus dem Internet pflücken kann (übrigens auch, weil dies m. E. gegen die legitimen Rechte der Urheber verstößt), sondern sorgfältig von kompetenten Menschen gefilterte Texte braucht, die den Stand des Wissens widerspiegeln und nicht z. B. irgendwelche Stammtisch-Meinungen. Aber das wäre eben sehr teuer und deswegen wohl nicht für kostenlose oder zumindest billige Angebote wie heute geeignet.

Ohnehin sollte klar sein, dass ganz grundsätzlich die Stärke solcher Sprachmodelle die Erzeugung guter Sprache ist, nicht aber die Recherche und das Abwägen komplizierter Sachverhalte. (Gerade im Energiebereich ist ein sinnvolles Abwägen in komplexen Zusammenhängen oft entscheidend!) Künstliche Intelligenz mag schon heute geeignet sein, um einen Artikel wie diesen aus einem von einem Menschen sorgfältig erstellten Entwurf zu erzeugen – also nur, um Formulierungen auszuarbeiten, aber nicht um Sachverhalte zuverlässig festzustellen. (Dieser Artikel enthält allerdings nichts von einer KI außer den gekennzeichneten Zitaten!) Auch für eine Art von Brainstorming sind sie oft gut geeignet, also zum Liefern nützlicher Anregungen, und natürlich für Übersetzungen.

Generell sehe ich in KI-Tools potenziell sehr nützliche Helfer für Menschen, aber keineswegs einen Ersatz für diese, zumindest wo echte Expertise und Intelligenz benötigt werden und nicht nur mit bereits vorhandenem gesicherten Datenmaterial hantiert werden muss. Und auf dieser Website werden Sie weiterhin Produkte menschlicher Arbeit konsumieren, auch wenn das mühsamer ist, als eine KI für mich schreiben zu lassen!

Leider ist zu befürchten, dass dies auf vielen anderen Webseiten zunehmend anders sein wird. Mit KI geht es viel schneller und billiger, und die Qualität wird dann vielerorts eben auf der Strecke bleiben.

Ein anderes Problem ist natürlich die große Eignung von KI für massenhaften Missbrauch. Interessierte Kreise werden das Internet noch effektiver mit ihrer Propaganda fluten können, und es dürfte schwer sein, das mit effektiven Regulierungen einzudämmen.

Welche Schäden dies für unsere Gesellschaft letztendlich anrichten wird, bleibt abzuwarten. Jedenfalls sind wir alle gehalten, noch sorgfältiger als früher unsere Informationsquellen auszuwählen und uns nicht von schönen Formulierungen blenden zu lassen, die Kompetenz nur vortäuschen. Wer weiß, wird uns dabei am Ende noch KI irgendwie helfen können? Aber wie zuverlässig? Wie soll eine KI die Spreu vom Weizen trennen können, ohne selbst zuverlässig die Sachlage einschätzen zu können? Da gibt es noch viele offene Fragen.