Wie funktioniert GenAI eigentlich?

04.10.2024

Foto von einem Mitarbeiter in WienIT Räumlichkeiten.

Was wir tun müssen, um mittels generativer künstlicher Intelligenz (=GenAI) Bilder, Texte oder Programmiercodes zu erstellen, wissen wir. Aber wie funkt GenAI selbst? Unser Kollege Chinedu hat uns die bekanntesten KI-Modelle erklärt und wie sie im Background funken.

Meet Chinedu 👋

Hello Chinedu, du bist Lead Data Engineer im Team IoT & Data Services. An welchem Projekt bist du bei WienIT grad dran?

Aktuell arbeite ich an diversen IoT-Projekten, in denen ich die Datenstrecken zwischen Edge-Geräten und unserer Azure IoT-Plattform entwickle. Zudem erweitern wir auch unsere konzernweite Big Data-Plattform.

Aktuell studierst du auch an der Johannes Kepler-Uni im Master "Artificial Intelligence". Was fasziniert dich an AI?

Die Tatsache, dass wir Algorithmen entwickeln können, die selbst den optimalen Weg finden und damit Probleme lösen können, die vorher unüberwindbar erschienen.

Weißt du schon worüber du deinen Master schreibst?

Leider noch nicht. Aber ich habe mir überlegt etwas in Richtung Reinforcement Learning zu machen.

Wir wünschen alles Gute fürs Studium! 🧑‍🎓

Behind AI 🤖

Wie funkt GenAI im Hintergrund. Chinedu erklärt´s uns.

Über Large Language Models (LLM)

Die Grundlage hinter ChatGPT oder Copilot sind sogenannte Large Language Models (LLM). Das sind künstliche neuronale Netze und haben einen ähnlichen Aufbau wie die neuronalen Netze im menschlichen Gehirn. Sie werden aus Neuronen und Verbindungen zwischen den Neuronen zusammengesetzt. Das kann man sich vorstellen wie ein Netzwerk aus Glühbirnen, die durch Kabel verbunden sind. Ein konkretes Netz stellt ein KI Model dar. Diese Glühbirnen können „an“ oder „aus“ sein – abhängig von der Information, die durch die Kabel fließt. Wenn man so einem Netz nun einen Input liefert, dann werden Neuronen auf bestimmte Art aktiviert und liefern schlussendlich einen Output. Ähnlich wie beim uns Menschen: Wir bekommen einen Reiz, der löst eine Reaktion aus.

Über Machine Learning

Im Kontext vom Künstlicher Intelligenz wird oft von lernen gesprochen, daher auch der Begriff Machine Learning. Dieser Lernprozess besteht darin, dem KI-Modell einen Input zu geben, um einen gewünschten Output bzw. Zielbild zu haben. Nachdem das Modell basierend auf dem Input einen Output liefert, vergleicht man diesen mit dem Zielbild und passt die Verbindungen im Netzwerk so lange an, bis der Output des Netzes immer mehr dem gewünschten Output entspricht. Auf diese Weise können solche Modelle Muster sowie die Bedeutung und Abhängigkeiten zwischen Wörtern und deren Bedeutung lernen. Wie ein Kind, dass beim Lesen eines Buches neue Verbindungen herstellt, stärkt und dadurch lernt.

Über neuronale Netze und Architektur in KI

Diese Künstlichen Neuronalen Netze können unterschiedlich aufgebaut sein. Man spricht dann von unterschiedlichen Architekturen. Die Architektur gibt, unter anderem, die Größe des Netzes an, also wie viele Neuronen es gibt, aber auch wie die Kommunikation zwischen den Neuronen aussieht. Solche Netze haben oft auch unterschiedliche Strukturen, die sich auf Teilgebiete der Aufgabenstellung spezialisieren können. Wenn man als Beispiel ein Modell nimmt das Bilder klassifizieren soll, dann kann es Netzwerk Strukturen geben, die zuerst mal grobe Formen und Kanten aus den Bildern extrahieren, und Strukturen die sich mehr auf das Erkennen von Details wie Texturen fokussieren.

Über den Durchbruch von GenAI (LLM)

Am Durchbruch von GenAI/LLM-Modellen wie ChatGPT waren mehrere Faktoren beteiligt.

Die Datenmenge. Seit Big Data und der großen Menge an Informationen, die es heutzutage im Internet gibt, haben wir das nötige Trainingsmaterial, das für solche Modelle ausreicht.
Die Rechenleistung, um die Komplexität der menschlichen Sprache abbilden zu können. Hier werden sehr komplexe Netzwerk-Architekturen benötigt mit einer gewaltigen Anzahl an Neuronen. Damit der Trainings-Prozess nun nicht Jahrzehnte dauert, braucht man genug Rechenleistung, was wiederum erst durch den Hardware-Fortschritt der letzten Jahre erreicht wurde.
Die Erfindung einer neuen Netzwerk-Architektur namens „Transformer“, die auch das „T“ in „GPT“ (=Generative Pretrained Transformer) steht.

Diese Kombination aus Datenmenge, Rechenleistung und Transformer-Architektur ermöglicht es dann in enormen Rechenzentren Modelle wie ChatGPT zu trainieren – was trotzdem einige Monate und hunderte Millionen kostet. Selbst nach dem Training ist die Verwendung der größten Modelle nur durch Supercomputer möglich. Man kann sie also nicht einfach herunterladen und auf seinem eigenen Rechner verwenden.