Rückblick auf relevante Machine-Learning-Methoden
In diesem Abschnitt werden wir einige wichtige Begriffe und Methoden aus dem klassischen Machine Learning durchgehen, die uns helfen, die Arbeitsabläufe im Quantum Machine Learning besser zu verstehen. Wir beginnen mit allgemeinen Grundbegriffen und tauchen dann tiefer in zwei Typen von Machine Learning ein: Kernel-Methoden (insbesondere im Kontext von Support Vector Machines) und neuronale Netze. Es gibt durchaus Verbindungen zwischen diesen Methoden, aber wir behandeln sie als getrennte Gebiete, da sich die quantenmechanischen Workflows hier und in späteren Lektionen unterscheiden. Dies ist nur ein grober Überblick, und wir lassen vieles der Nuancen weg. Für eine vollständigere Einführung in Machine Learning empfehlen wir Ressourcen wie [1-3].
Arten des Machine Learnings
Als einfache Definition: Machine Learning ist eine Sammlung von Algorithmen, die Muster und Zusammenhänge in Daten analysieren und Schlussfolgerungen daraus ziehen. Grob gesagt lassen sich Machine-Learning-Algorithmen in drei Hauptkategorien einteilen, je nach Art der verwendeten Daten und wie die Algorithmen lernen, ohne explizit programmiert zu werden:
- Überwachtes Lernen (Supervised Learning): Beim überwachten Lernen sind die Daten, die zum Training des Modells verwendet werden, mit Labels versehen. Das Ziel dieser Algorithmen ist es, die Beziehung zwischen Daten und den entsprechenden Labels oder Ausgaben zu erlernen und auf ungesehene Daten zu verallgemeinern. Typische Aufgaben in dieser Kategorie sind Klassifizierung und Regression.
- Unüberwachtes Lernen (Unsupervised Learning): Im Gegensatz zum überwachten Lernen verwendet das unüberwachte Lernen ungelabelte Daten zum Training des Machine-Learning-Modells. Das Ziel dieser Algorithmen ist es, versteckte Muster und Strukturen in Daten aufzudecken. Zu dieser Kategorie gehören etwa Clustering- und Dimensionsreduktionsalgorithmen. Auch einige generative Modelle wie generative adversarielle Netzwerke und variationelle Autoencoder können dieser Kategorie zugeordnet werden.
- Bestärkendes Lernen (Reinforcement Learning): Algorithmen in dieser Kategorie sind durch einen Agenten definiert, der mit einer Umgebung interagiert. Der Agent führt Aktionen aus und erhält Rückmeldung aus seiner Umgebung in Form von Belohnungen und Bestrafungen. Durch diesen Rückkopplungsmechanismus lernt der Agent schließlich, die richtigen Aktionen auszuführen, um eine bestimmte Aufgabe zu erfüllen.

Das linke Bild zeigt zwei Kategorien gelabelter Daten, wie beim überwachten Lernen. In diesem Fall sind die Kategorien linear trennbar. Das rechte Bild zeigt Cluster von Daten. Bei einer unüberwachten Lernaufgabe wären diese Daten anfangs nicht gelabelt, und der Algorithmus würde die Verteilung untersuchen und möglicherweise nach Clustern suchen. Um die vom Algorithmus identifizierten Cluster beispielhaft zu visualisieren, wurden die Datenpunkte nun mit Labels versehen. Ein wesentlicher Unterschied zwischen beiden ist, dass der überwachte Lernprozess mit bereits gelabelten Daten beginnt, während der unüberwachte Prozess mit ungelabelten Daten startet – auch wenn die Daten am Ende mit Labels versehen sein können.
„Quanten" ins Machine Learning einführen
Wir können nun damit beginnen zu erkunden, wie „Quanten" in das Machine Learning eingeführt wird. In dieser übergeordneten Kategorisierung berücksichtigen wir sowohl den Typ des Modells/Algorithmus auf dem Verarbeitungsgerät als auch die Art der bereitgestellten Daten. Das obige Bild fasst diese möglichen Kombinationen zusammen.

CC bedeutet zum Beispiel, dass wir einen klassischen Datensatz haben – etwa Bilder, Ton oder Text, der auf klassischen Computern gespeichert werden kann – und dass wir auch einen klassischen Computer verwenden, um einen Machine-Learning-Algorithmus auszuführen. Das ist genau die klassische Machine-Learning-Einstellung. QQ hingegen bedeutet, dass wir einen Quantencomputer verwenden, um Quantendaten zu verarbeiten. „Quantendaten" kann dabei verschiedene Bedeutungen haben und ist kontextabhängig. Quantendaten könnten als eine Menge von Messergebnissen eines Quantengeräts verstanden werden oder sich auf Zustände beziehen, die auf einem Quantencomputer durch einen anderen Algorithmus erzeugt wurden. In der Zukunft könnten sie sogar auf in QRAM (Quantum Random Access Memory) gespeicherte Daten verweisen, was derzeit noch nicht existiert. Wenn Forschende über Quantum Machine Learning sprechen, meinen sie üblicherweise das CQ-Regime, in dem der vorliegende Datensatz klassisch ist und das verarbeitende Gerät, auf dem der Machine-Learning-Algorithmus ausgeführt wird, ein Quantencomputer ist. In den folgenden Teilen des Kurses konzentrieren wir uns auf solche Algorithmen.
Support Vector Machines
Wir fassen nun eine Klasse von Algorithmen namens Support Vector Machines aus klassischer Machine-Learning-Sicht zusammen. Später werden wir zeigen, wie Quantencomputing in diesen Algorithmus eingebracht werden kann.

Stellen wir uns eine binäre Klassifizierungsaufgabe auf einem Datensatz mit einem zweidimensionalen Merkmalsraum vor, wie im Diagramm dargestellt. Eine Möglichkeit zur Klassifizierung dieses Datensatzes besteht darin, eine Linie oder allgemeiner eine Hyperebene zu finden, die die beiden Klassen trennt. In der Praxis gibt es unendlich viele trennende Hyperebenen, daher stellt sich die Frage: Wie definieren wir die optimale? Die Idee ist, dass eine besonders gute Entscheidungsgrenze den Margin maximieren sollte, der als Abstand zu den nächstgelegenen Punkten in jeder Klasse definiert ist. In diesem Kontext werden die Datenpunkte mit dem kleinsten Abstand zur Entscheidungsgrenze als Support-Vektoren bezeichnet.
Eine lineare Entscheidungsgrenze kann auf verschiedene Weisen beschrieben werden; in gewisser Hinsicht ist die direkteste die folgende, dargestellt in . Dabei ist die Menge der Parameter, die die Hyperebene definieren, ist dein Datensatz, und ist eine konstante Verschiebung. ist eine Abbildung aus dem Raum der Eingabedatenpunkte – häufig (aber nicht notwendigerweise) in einen höherdimensionalen Raum. Auf diese Abbildung kommen wir weiter unten zurück.
Im Modell ist der Vektor der anpassbaren Parameter, die das Modell erlernen würde. Das nennen wir die „primale Formulierung". Durch einige mathematische Umformungen lässt sich zeigen, dass es eine zweite Möglichkeit gibt, dasselbe Problem zu formulieren. Wir nennen dies die „duale Formulierung", dargestellt durch die Gleichung unten. Für diese Formulierung müssen wir über die Alpha-Parameter optimieren. Der wesentliche Unterschied besteht darin, dass die primale Formulierung ein inneres Produkt zwischen dem Merkmalsvektor und den lernbaren Parametern enthält, während in der dualen Formulierung das innere Produkt zwischen Merkmalsvektoren gebildet wird. Obwohl die duale Form sowohl die Trainingsmerkmale als auch die entsprechenden Labels enthält, werden wir im nächsten Abschnitt sehen, wie sie sich als nützlicher erweist als die primale Form.
Kernel-Methoden und die Rolle des Quantencomputings
Das folgende Video motiviert, wie Quantencomputing eine Rolle bei linearen Klassifikatoren spielen kann. Im Text wird dies ausführlicher beschrieben.
Übergang in höherdimensionale Räume
In diesem und dem folgenden Unterabschnitt geht es um Abbildungen in höhere Dimensionen. Ziel ist es, den „Kernel-Trick" im Kontext von Abbildungen zwischen Räumen zu erklären und damit den Boden für quantenmechanische Kernel zu bereiten. Es geht dabei ausdrücklich nicht darum, dass höhere Dimensionen in Quantenwellenfunktionen alle unsere Probleme lösen. Wie in der Einleitung erwähnt, sind klassische Gaußsche Merkmalskarten bereits unendlichdimensional. Die Dimensionalität von Datenmerkmalen ist wichtig, aber hochdimensionale Quantenzustände allein reichen nicht aus, um klassische Methoden zu übertreffen.
Grafisch lässt sich leicht erkennen, wie wir den SVM-Ansatz auf Fälle verallgemeinern können, in denen die ursprünglichen Daten nicht linear trennbar sind – vorausgesetzt, wir haben die richtige Abbildung in höhere Dimensionen. Betrachten wir die zweidimensionalen Daten auf der linken Seite: Es gibt keine lineare Entscheidungsgrenze, die die beiden Klassen trennen kann. Wir können jedoch ein drittes Merkmal zum Merkmalsraum hinzufügen. Wenn dieses neue Merkmal – etwa – der Abstand zum Ursprung der vorherigen beiden Merkmale und ist, werden die Daten linear trennbar. Das bedeutet auch, dass wir den Support Vector Machine-Algorithmus nun erfolgreich auf diesem höherdimensionalen Merkmalsraum ausführen können.

Diese „Merkmalsabbildung" bezeichnen wir ebenfalls mit . Die Merkmalsabbildung bildet häufig aus dem Raum der Eingabedaten in eine höhere Dimension ab, wie hier gezeigt, es gibt jedoch auch Modelle und Algorithmen, die Abbildungen in niedrigere Dimensionen nutzen. Die Abbildung in höhere Dimensionen ist einfach ein leicht visualisierbares und verständliches Beispiel.
Einige Merkmalsabbildungen können in sehr hochdimensionale Räume abbilden. In solchen Fällen macht die hohe Dimensionalität innere Produkte rechnerisch aufwendiger. Darauf kommen wir weiter unten zurück.
Warum ist die duale Form nützlich?
Erinnern wir uns an die primale und die duale Formulierung unseres linearen Grenzmodells:
Nun wissen wir, dass die Verwendung einer Merkmalsabbildung in einen höherdimensionalen Raum es uns ermöglichen kann, erfolgreich eine trennende Hyperebene zu finden. Wir können daher den ursprünglichen Merkmalsvektor in den Gleichungen durch die merkmalsabgebildeten Vektoren ersetzen. Tun wir dies jedoch in der primalen Formulierung, stoßen wir auf das Problem, innere Produkte zwischen den Parametern und einer potenziell sehr hochdimensionalen Merkmalsabbildung berechnen zu müssen. In der dualen Formulierung hingegen werden diese durch innere Produkte zwischen merkmalsabgebildeten Vektoren verschiedener Eingaben ersetzt.
Für manche Merkmalsabbildungen ist es möglich, das innere Produkt merkmalsabgebildeter Vektoren als eine einfache Funktion