Geschaffen um sinnlosen Text zu generieren? Large Language Models (große Sprachmodelle LLMs) wie ChatGPT von OpenAI oder Bard von Google leiden alle alle am selben Problem: Sie denken sich manchmal Dinge aus, die nicht existieren. Diese Tendenz, „Fakten“ zu erfinden, ist ein Phänomen, das als Halluzination bekannt ist und aufgrund der Art und Weise auftritt, wie die heutigen LLMs – und im Übrigen alle generativen KI-Modelle – entwickelt und trainiert werden. Aber ist es ein Problem oder eher ein Schub für die „echte Intelligenz“?
Generative Künstliche Intelligenz ist nicht wirklich „intelligent“. Sie verfügt nicht über das gesamte Weltwissen und agiert anders als Menschen nicht rational. Generative KI-Modelle sind einfach gesagt statistische Systeme, die Wörter, Bilder, Sprache, Musik oder andere Daten vorhersagen. Gelernt anhand einer großen Datenmenge, die in der Regel aus dem öffentlichen Internet stammen, lernen diese Modelle, wie wahrscheinlich es ist, dass Daten auf der Grundlage von Mustern auftreten, einschließlich des Kontexts der umgebenden Daten.
Ein einfaches Beispiel: Will man eine positive Mail verfassen und es fehlt einem der Text kann man dies die KI tun lassen. Der einfache Prompt und fast ohne Kontext erstellte Prompt „ergänze diese Mail: Ich freue mich…“ liefert ein lesenswertes Ergebnis. ChatGPT: „Ich freue mich sehr über deine Nachricht und möchte dir für deine Zeit und Aufmerksamkeit danken. Es ist immer eine Freude, von dir zu hören.“ ChatGPT freut sich? Nein, es gibt nur ein Muster das aus den unzähligen Mails und Inhalten stammt auf die es trainiert wurde. Es bedeutet nicht, dass das KI-Modell sich auf irgendwas freut.
Bei einer erneuten Eingabe desselben Prompts kommt ein neuer Text. Das ist der Rahmen in dem sich LLM bewegen: Verbergen und Maskieren von früheren Wörtern aus dem Kontext heraus. Das Modell errechnet die Wahrscheinlichkeit des kommenden Wortes. Im kleinen Rahmen kennt man das vom eigenen Smartphone in Form der Autokorrektur. Es wird einem ein Wort vorgeschlagen was passen könnte, manchmal trifft es zu manchmal liegt die Korrektur komplett daneben. Was in kleinen Rahmen am Handy realisiert ist, funktioniert im Großen bei den generativen KI-Modellen am Beispiel von Chat GPT ganz gut: Der wahrscheinlichkeitsbasierte Ansatz.
Aber und das „aber“ muss eigentlich groß geschrieben werden. Auch wenn die Auswahl an Wörtern und deren Wahrscheinlichkeiten vielleicht zu einem sinnvollen Text führen, ist dieser noch lange nicht faktisch richtig. KI-Sprachmodelle können etwas erzeugen, das vielleicht grammatikalisch korrekt, aber am Ende doch unsinnig ist. Oder sie können Unwahrheiten von sich geben, indem sie Ungenauigkeiten in ihren Trainingsdaten verbreiten. Oder sie vermischen verschiedene Informationsquellen, einschließlich fiktiver Quellen, selbst wenn diese Quellen einander eindeutig widersprechen. Dahinter steckt keine Absicht. Es ist einfach so: Begriffe ob wahr oder falsch sind für LLM bedeutungslos. Die Modelle wurden einfach darauf trainiert bestimmte Wörter oder Phrasen mit bestimmten Konzepten zu assoziieren, selbst wenn diese Assoziationen nicht zutreffend sind.
Ein Standard-LLM wie ChatGPT (3.5) hat keine Möglichkeit zu wissen, ob es eine Anfrage zuverlässig beantwortet oder ob die Vorhersage stimmt. Deswegen ist eine Recherche über den gelieferten Inhalt immer notwendig. Bei Bing AI werden wie bei Google Bard schon Links zu Quellen mitgeliefert, die die Nachrecherche unterstützen können.
Kann man das Problem der Halluzinationen lösen? Verschiedene Forscher meinen das dies in geringen Maße gehen würde, je nachdem wie das LLM trainiert wird. Wichtig wäre aber auch eine hohe Genauigkeit bei den Fragen und hochwertige Wissensbasis. Damit ist dann eher Klasse statt Masse gemeint. Dies könnte bei speziellen auf Unternehmen ausgelegte interne LLM möglich sein, wie beispielsweise bei dmGPT, ein Modell für die Mitarbeiter des Drogerie-Unternehmens. Trotzdem sind sich alle einige, das noch in naher Zukunft jedes aktuell öffentlich eingesetzte LLM-basierte System halluzinieren werde.
Die Frage, die man sich bei der Verwendung stellen muss ob die Vorteile die durch die Halluzinationen verursacht werden die negativen Folgen übertreffen. Wenn ein KI-Modell keinen Schaden anrichtet, sondern sich ab und zu in trivialen Sachen irrt könnte es gewinnbringend sein. Es ist immer eine Frage des erwarteten Nutzens der KI. Dazu muss es ja nicht immer nur bei einem Sprachmodell bleiben. Inzwischen gibt es für verschiedene Wirtschaftsbereiche auch spezialisierte generative KI-Modelle. Wie in der Programmierung mit intelligenter Unterstützung für Programmcode (z.B. der Copilot in Visual Studio von Microsoft) oder in der Fotobearbeitung mit Bildgeneratoren.
Fazit: In Schule, Universität und Beruf hat man gelernt: Vertraue nicht Wikipedia. Auch wenn die Versuchung groß ist zitiere nicht aus dem Online-Lexikon in einer Arbeit oder Präsentation. Prüfe alle Fakten noch einmal. Was für Wikipedia gilt, sollte einmal mehr für KI-Sprachmodelle gelten. Wer ChatGPT nutzt, sollte die Inhalte nicht 1:1 nutzen, sondern es eher als Förderung der eigenen Kreativität sehen. Denn: Die kreative Nutzung von Halluzinationen kann zu Ergebnissen oder Ideenkombinationen führen, die den meisten Menschen vielleicht nicht einfallen würden.