14.04.2023
Nachahmung von Intelligenz
ChatGPT ist derzeit in aller Munde. Künstliche Intelligenz (KI) ist allerdings kein Hexenwerk. Ihre Möglichkeiten sind begrenzt und mit Risiken behaftet.
Liebe Gemeinde, Stellt euch vor, ich bin Sara, die Ehefrau von Levi, dem Zöllner. Ich habe meinen Mann kennengelernt, als er noch ein junger Mann war, voller Träume und Ambitionen, Ich habe ihn geliebt für seinen Einsatz und Hingabe an unsere Familie. Wir haben uns darauf gefreut, unser Leben zusammen aufzubauen. Aber dann kam die Besatzung und Levi wurde gezwungen, eine Arbeit anzunehmen, die ich nicht billigen konnte...Doch dann kommt Jesus in unser Leben und alles ändert sich.
Das Zitat ist einer Predigt entnommen, die der evangelische Pfarrer Heiko Kuschel für den Artikel „Wenn der Computer die Predigt schreibt" anfertigt. 1 Die gesamte Predigt arbeitet mit verteilten Rollen, die Herr Kuschel mit den Worten skizziert: „ChatGPT erfindet für mich vier Personen, charakterisiert sie kurz und gibt ihnen Namen. Sara, Levis Ehefrau; David, Levis Sohn; Simon, Levis Freund; Rabbi Samuel, ein Pharisäer; Gaius, ein römischer Beamter."
Der Text ist durchaus Sonntags-tauglich. Aber ist denn künstliche Intelligenz (KI) wirklich eine Art Orakel? Ist künstliche Intelligenz überhaupt intelligent?
Da „jede hinreichend fortgeschrittene Technologie von Magie nicht mehr zu unterscheiden ist" (Arthur C. Clarke), soll dieser Text vor allem entzaubern. Die künstliche Intelligenz und damit ChatGPT ist eigentlich nichts weiter als die neueste Version des „fliegenden Autos" - ein Symbol für eine Zukunft, die nie stattfinden wird. Das liegt daran, dass KI nicht wirklich künstliche Intelligenz ist, sondern eine geschickte Nachahmung von Intelligenz.
Das Perzeptron und die ersten Schritte
Beginnen wir am Anfang. 1943 erschien der Artikel „A logical calculus of the ideas immanent in nervous activity" der Mathematiker Warren McCulloch und Walter Pitts. Er handelt von Schwellwerten mit mehreren Eingängen und einem einzigen Ausgang – künstlichen Neuronen. Die erste Umsetzung eines neuronalen Netzes war das Perzeptron von Frank Rosenblatt im Jahr 1957.
Die Grundlage des Perzeptrons sind Funktionsgleichungen der Analysis, dem Teilgebiet der Mathematik, das Werkzeuge liefert, mit denen sich untersuchen lässt, wie sich Dinge zueinander verhalten. Aus der Schule dürfte das Wachstum der Pflanzen im Verhältnis zum Niederschlagsniveau, die Ausdehnung einer Metallfeder oder die Geschwindigkeit eines Autos, die sich mit der Zeit ändert, bekannt sein. Wir erinnern uns nun, hoffentlich nicht mit allzu großem Schrecken, an den Mathematikunterricht zurück. Sie haben einen Eingabewert x, eine Berechnungsvorschrift f(x) und einen Ausgabewert y. Illustrieren wir das Ganze mit einem einfachen Beispiel: x = 1, f(x) = x+1 y= 2.
„Bei der Sprachmodellierung werden Textkörper analysiert, um eine Grundlage für die Wortvorhersage zu schaffen.“
Bei einem Perzeptron haben wir nicht nur einen Eingabewert, sondern durchaus mehrere. Es soll ja eine Nervenzelle nachstellen, wobei die Dendriten dem x1 bis xn entsprechen, das Axon der Berechnungsvorschrift f(x) und die Terminale dem Ausgabewert y.
Illustrieren wir auch hier das Ganze mit einem einfachen Beispiel mit nur einem Eingabewert: Es ist bekannt, dass die Umrechnung von Kilometern zu Meilen etwas mehr als die Hälfte ist – 100 Kilometer entsprechen 62,137 Meilen. Unsere Werte lauten also: x=100, f(x)=0.5x, yberechnet=50, yerwartet=62,137. Der Fehler E entspricht also einem Wert von 12,137 und ermittelt sich aus der Differenz von korrektem Wert(yerwartet) und errechnetem Wert(yberechnet): E=yerwartet-yberechnet. Der Fehler E soll nun in der Berechnungsvorschrift f(x) verwendet werden, um sich dem korrekten Wert yerwartet zu nähern. Der Fehler E hatte einen Wert von 12,137 und der Eingabewert x entspricht nach wie vor 100, der Änderungsbetrag errechnet sich nun wie folgt: E/x und lautet 0.12137. Das heißt, wir müssen die Berechnungsvorschrift f(x)=0.5 um 0.12137 erhöhen. Die neue Berechnungsvorschrift lautet nun f(x)=0.62137x. Setzen wir nun unseren Wert x=100 ein, kommen wir auf yberechnet=62,137-yberechnet entspricht also yerwartet, die kleine Umrechnungsmaschine Kilometer zu Meilen hat gelernt. Die Berechnungsvorschrift ändert sich mit jedem Durchgang um dem gewünschten Ausgabewert möglichst nahe zu kommen. Dieses Näherkommen, dieses Angleichen ist das eigentlich Intelligente – eine Berechnungsvorschrift, die sich selbstständig korrigiert. Mit dem Wort Intelligenz ist also Anpassung gemeint.
Die Sprachmodelle
Ein Spezialgebiet des maschinellen Lernens sind die Sprachmodelle. Bei der Sprachmodellierung werden Textkörper analysiert, um eine Grundlage für die Wortvorhersage zu schaffen. Das bekannteste Beispiel sind Smartphone-Tastaturen, die das nächste Wort auf der Grundlage des gerade getippten Wortes vorschlagen. Diese Modelle verwenden mathematische Techniken der Statistik und der Analysis sowie Techniken der Datenbanken und Graphentheorie, um die Wahrscheinlichkeit des Auftretens einer bestimmten Wortfolge in einem Satz zu bestimmen. Die Eingaben werden interpretiert, nachdem sie einer Berechnungsvorschrift zur Verfügung gestellt wurden, der nach kontextbezogenen Regeln in der jeweiligen natürlichen Sprache (z. B. deutsch, englisch, koreanisch usw.) sucht.
GPT steht für Generative pre-trained transformer. Diese KI wird mit einem großen Korpus von Textdaten trainiert, um menschenähnliche Texte zu erzeugen. Sie bauen sich aus mehreren Blöcken der Transformer-Architektur auf. Die Schichten gliedern sich in: Input Embedding, Dropout, Transformer Block, Layer Norm, Linear, Softmax. Die Embedding-Schicht ist eine Zahlenfolge, die als eindeutiger Bezeichner dient, sie gibt einem Wort oder einer Wortgruppe eine eindeutige numerische ID. Das Dropout begrenzt die Überanpassung. Die Transformer-Blöcke verarbeiten die Eingabe. Die Layer Norm(alization) skaliert die Eingabeschichten in allen Neuronen derselben Schicht für jede Datenprobe auf einen bestimmten Wertebereich. Die lineare Schicht gibt die Wahrscheinlichkeiten für die Richtigkeit jeder Antwort aus. Die Softmax-Funktion bildet einen Vektor von reellen Zahlen auf einen Vektor von Wahrscheinlichkeitsverteilungen ab. In Modellen wird für ein Vokabular der Größe N (Anzahl der Wörter, Teile von Wörtern) das nächste Wort aus einer Verteilung der Form vorhergesagt: Die Ausgabe des Softmax ist die Wahrscheinlichkeit, dass das nächste Wort das x-te Wort im Vokabular ist.
Was heißt das nun im Detail? Der Erfolg von ChatGPT ist in erster Linie den Forschungsergebnissen zu verdanken, die in dem Paper „Attention Is All You Need“ hinterlegt wurden. In dieser Abhandlung werden zwei Arten von Transformatorenblöcken eingeführt: der Encoder und der Decoder. Ein Encoder-Block kann Eingaben bis zu einer bestimmten maximalen Sequenzlänge (z. B. 512 Token) verarbeiten. Er führt eine parallele Verarbeitung aller Token (Wörter, Wortgruppen) durch und ermöglicht so ein bidirektionales Verständnis. Der Decoder-Block weist eine geringe architektonische Abweichung vom Encoder-Block auf – eine Selbstaufmerksamkeitsschicht. Diese Selbstaufmerksamkeitsschicht blendet zukünftige Token aus, indem Informationen von Token blockiert werden, die von einer berechneten Position abweichen.
Die künstlichen Intelligenzen lassen sich also in die Kategorien unterteilen: Encoder, Encoder-Decoder und Decoder. BERT benutzt Encoder, BART und T5 benutzen Encoder-Decoder und XLNet sowie die GPT-Reihe benutzen Decoder.
Die GPT-Modelle (GPT-1 bis GPT-4) haben größtenteils die gleiche Architektur und verwenden Transformator-Decoder-Stacks. Die Unterschiede in der Architektur und in der Zielsetzung des Vortrainings zwischen den Sprachmodellen bestimmen, ob ein Modell bei der Textgenerierung oder beim Sprachverstehen besser abschneidet. Veranschaulichen wir das mit einem Beispiel: „Ein Roboter muss den ihm von einem Menschen gegebenen Befehlen gehorchen – es sei denn, ein solcher Befehl würde mit Regel eins kollidieren." (Zweites Gesetz der Robotik von Isaac Asimov)
Die drei Stellen (ihm, solcher Befehl und Regel eins) werden hier hervorgehoben, weil sich diese Wörter auf andere Wörter beziehen. Es gibt keine Möglichkeit, diese Wörter zu verarbeiten, ohne den Kontext, auf den sie verweisen, mit einzubeziehen. Wenn ein Sprachmodell diesen Satz verarbeitet, muss es in der Lage sein zu wissen, dass „Es" sich auf Roboter bezieht, „solcher Befehl" sich auf den früheren Teil des Gesetzes, nämlich „von einem Menschen gegebenen Befehlen gehorchen" und „Regel eins" das erste Gesetz der Robotik meint. Das ist es, was die Selbstaufmerksamkeit bewirkt, Punkte für die Relevanz eines jeden Wortes im Segmentwerden vergeben.
Die wesentlichen Komponenten, die in einem Decoder wirken, sind drei Vektoren: Query, Key, Value. Die Query ist eine Darstellung des aktuellen Wortes, die zum Vergleich mit allen anderen Wörtern (anhand ihrer Keys) verwendet wird. Keyvektoren sind die Bezeichnungen für alle Wörter in einem Segment. Man benutzt sie zum Abgleich. Values sind tatsächliche Wortrepräsentationen. Man stelle sich als einfache Analogie einen Aktenschrank vor. Die Query ist ein Zettel mit dem Thema, das man recherchieren will. Die Keys sind die Etiketten der Ordner im Schrank. Gleicht man nun Query und Key ab, wird der Inhalt des Ordners sichtbar und dieser Inhalt sind die Valuevektoren. Nur sucht man nicht nur nach einem Wert, sondern nach einer Mischung von Values aus einer Vielzahl von Ordnern.
„Die Ausgabewerte hängen von den Eingabewerten und der hinterlegten Schwellenfunktion ab.“
Nachdem die Arbeitsweise von ChatGPT deutlicher wurde, sollen nun ein paar wichtige Werkzeuge Erwähnung finden, mit denen aktuelle Vertreter der künstlichen Intelligenz arbeiten.
Die autoregressive Spracherzeugung basiert auf der Annahme, dass die Wahrscheinlichkeitsverteilung einer Wortfolge in das Produkt von bedingten Wortfolgeverteilungen zerlegt werden kann.
Die Greedy-Suche wählt einfach das Wort mit der höchsten Wahrscheinlichkeit als nächstes Wort aus.
Die Beam-Suche verringert das Risiko, versteckte Wortfolgen mit hoher Wahrscheinlichkeit zu übersehen, indem die Möglichkeiten mit großer Wahrscheinlichkeit erhalten bleiben und schließlich die Möglichkeit mit der insgesamt höchsten Wahrscheinlichkeit ausgewählt wird.
Sampling bedeutet die zufällige Auswahl des nächsten Wortes gemäß seiner bedingten Wahrscheinlichkeitsverteilung.
Beim Top-K-Sampling werden die K wahrscheinlichsten nächsten Wörter herausgefiltert, und die Wahrscheinlichkeitsmasse wird nur auf diese K nächsten Wörter umverteilt. (ChatGPT-2 macht davon Gebrauch und sorgte für den nötigen Popularitätsschub).
Anstatt nur aus den wahrscheinlichsten K Wörtern zu wählen, wird beim Top-p-Sampling aus der kleinstmöglichen Menge von Wörtern gewählt, deren kumulative Wahrscheinlichkeit die Wahrscheinlichkeit p übersteigt. Auf diese Weise kann sich die Anzahl der Wörter in der Menge entsprechend dynamisch der Wahrscheinlichkeitsverteilung des nächsten Wortes erhöhen oder verringern.
Folgerungen
Künstliche Intelligenz ist die Anwendung der Gesetzmäßigkeiten der mathematischen Analysis. Man kann feststellen, wie sich die Dinge ändern und an eine Änderung wird sich angepasst. Nur, wie man bereits beim Perzeptron erkennen kann: Die Ausgabewerte hängen von den Eingabewerten und der hinterlegten Schwellenfunktion ab.
Künstliche Intelligenz ist die Anwendung der Graphentheorie. Die Beziehung zwischen Objekten kann modelliert werden. Die Ausgaben sind ein mit mathematischer Präzision zusammengesetztes Cut-Up. Wobei das Ganze mittlerweile derart feingliedrig abgestimmt ist, dass man beim Lesen den Eindruck gewinnen kann, dass ChatGPT und Co. einen tatsächlich verstehen.
Künstliche Intelligenz ist in erster Linie ein Werkzeug für den Gebrauch von Datenbanken. Sicherlich, es ist das am weitesten fortgeschrittene Werkzeug für Datenbanken, aber künstliche Intelligenz ist weder intelligent (sie passt sich nur die Gegebenheiten an) noch verfügt sie über Wissen (sie sortiert lediglich Daten nach mathematischen Operationen).
Künstliche Intelligenz wird die Arbeitswelt verändern. Eigene Firmenvideos in hoher Qualität sind nun ohne Produktionskosten möglich. Podcasts können mittlerweile ohne teures Equipment in Studioqualität aufgenommen werden. Den eigenen persönlichen Assistenten gibt es nun für umsonst. Jeder Kiosk hat nun die Möglichkeit, für sich eine eigene maßgeschneiderte Businessstrategie anzufertigen. Jeder Limonadenstand kann das Kaufverhalten des Kunden analysieren.
„KI kann zu einer Gefahr für die Gesellschaft werden, wenn Deep-Learning-Modelle als Mittel des Social Engineering eingesetzt werden.“
Künstliche Intelligenz wirft jetzt schon Schatten. Das unstillbare Verlangen nach Daten wird dazu führen, dass das, was wir sagen, zunehmend ‚aktenkundig‘ wird. Privatsphäre könnte zu einem Luxusgut werden. Wenn KI eine zunehmend größere oder sogar die einzige Rolle bei Entscheidungen spielt, drohen wir in einer statischen Welt eingesperrt zu werden, in der es nicht einmal mehr ein Nachdenken über andere Verhältnisse gibt. Analysen werden sich in Bereichen wie Kreditvergabe und Strafjustiz (Rassismus-, Sexismus- und weitere -ismus-Vorwürfe) nicht nur nachteilig auf Menschen auswirken, sondern können zu einem Quasi-Sozialkredit-System führen, das nicht einmal eine gesetzliche Einbettung benötigt.
Wenn wir unsere Verantwortung für die persönliche Sorgfaltspflicht aufgeben, weil „die KI es besser kann", wenn wir vor nicht konsensfähigem Denken zurückschrecken, weil die KI es für suboptimal hält, oder wenn wir keine ungeprüften Maßnahmen ergreifen, weil die KI sie als riskant bezeichnet, werden wir unmündig. Es zeichnet sich zudem eine neue zivilisatorische Bedrohung ab, die halb Ideologie und halb Ponzi-Schema ist. Die ersten Gehversuche dieses Hybriden haben wir mit der BLM-Bewegung, der russischen Außenpolitik und den Covid-Maßnahmen gesehen. KI kann zu einer Gefahr für die Gesellschaft werden, wenn Deep-Learning-Modelle als Mittel des Social Engineering eingesetzt werden.
Arvind Narayanan und Sayash Kapoor betreiben den lesenswerten Substack „AI Snake Oil". In dem Beitrag „ChatGPT is a bullshit generator" verdeutlichen sie die Arbeitsweise von ChatGPT an Hand der Bullshit-Definition von Harry Frankfurter: Bullshit ist eine Sprache, die ohne Rücksicht auf Faktentreue oder Wahrheitsliebe überzeugen soll. Sprachmodelle werden darauf trainiert, plausible Texte zu produzieren, die die Illusion von Kohärenz aufrechterhalten. Wahre Aussagen sind dabei eher eine angenehme Nebenerscheinung. KI kann unmöglich lernen, was nicht in seinen Daten enthalten ist, und die Daten für das Sprachmodell liefern der Maschine keinen Hinweis über die Bedeutung. Sprachen sind Zeichensysteme, also ein Doppelgebilde von Form und Bedeutung. Sobald ein Mensch dieses System erworben hat, kann er die Form verwenden, um die Bedeutung zu rekonstruieren, aber der Erwerb erfordert den Zugang sowohl zu Form und Bedeutung.
Einer KI ist das schlicht und ergreifend nicht möglich. Deswegen neigen KIs auch dazu, Dinge zu erfinden, weil sie nicht darauf ausgelegt sind, Informationen in menschlichen Sprachen auszudrücken. Sie spielen nur mit der Form der Sprache. Die bekannte IT-Plattform StackOverflow hat sehr schnell einsehen müssen, das ChatGPT nicht dazu taugt komplizierte Fragen zu beantworten. Tausende von falschen Antworten wurden generiert. Innerhalb von einer Woche untersagte die Plattform die von ChatGPT generierten Antworten. Das fliegende Auto muss wohl noch eine Weile beim Tüv bleiben.