Einführung in Quantum Machine Learning
Überblick und Motivation
Bevor du beginnst, füll bitte diese kurze Vorkurs-Umfrage aus – sie ist wichtig, um unser Inhaltsangebot und die Nutzererfahrung zu verbessern.
Willkommen beim Quantum Machine Learning!
Das folgende Video gibt eine kurze Einführung, die durch den Text unten ergänzt wird.
Zur kurzen Zusammenfassung und Ergänzung des Videos:
- Wir haben erlebt, dass ein Problem erstmals auf einem Quantencomputer gelöst wurde und Menschen anschließend einen Weg gefunden haben, es auf einem klassischen Supercomputer zu bewältigen. Dieser Kreislauf, bei dem sich klassisches und Quantencomputing gegenseitig an ihre Grenzen treiben, wird wahrscheinlich noch einige Jahre andauern.
- Es gibt spezifische Probleme, bei denen Quantencomputing einen nachweisbaren Vorteil gegenüber dem klassischen Computing bieten kann – vorausgesetzt, es werden Fortschritte bei der Fehlerreduzierung und der Anzahl verfügbarer Qubits erzielt. Aber wir befinden uns noch in einer Erkundungsphase, auf der Suche nach quantengeeigneten Datensätzen und nützlichen Quanten-Merkmalskarten.
- Quantum Machine Learning (QML) ist eines von vielen spannenden Gebieten, in denen Quantencomputing bestehende klassische Workflows ergänzen oder erweitern kann.
Machine Learning (ML) wendet Algorithmen auf Datensätze an, daher könnte QML plausiblerweise Quantenmechanik entweder auf der Daten- oder der Algorithmusseite einbeziehen – oder auf beiden. All diese Möglichkeiten sind potenziell interessant. Wir werden uns jedoch hauptsächlich auf Quantenalgorithmen beschränken, die auf klassische Daten angewendet werden. Ein Grund dafür ist, dass ML-Probleme mit klassischen Daten bereits so umfassend untersucht wurden und weithin verfügbar sind. Es besteht großes Interesse daran, Probleme zu lösen, die mit klassischen Daten beginnen. Ein weiterer Grund ist das Fehlen von QRAM. Ohne die Möglichkeit, große Mengen von Quantendaten über einen längeren Zeitraum zu speichern, sind Methoden, die mit Quantendaten beginnen, noch weit von der industriellen Anwendbarkeit entfernt. Es ist auch unklar, wie klassische Daten auf effiziente Weise „quanten-zugänglich" gemacht werden können. Zwei besonders interessante Arten von ML sind überwachtes Lernen, bei dem ein Algorithmus mit einem gelabelten Datensatz trainiert wird, und unüberwachtes Lernen, bei dem der Algorithmus versucht, eine Verteilung aus ungelabelten Stichproben zu erlernen. Ein unüberwachter Algorithmus könnte zum Beispiel lernen, neue Stichproben aus derselben Verteilung zu generieren oder die Stichproben in Gruppen mit ähnlichen Merkmalen zu clustern.

Das linke Bild zeigt zwei Kategorien gelabelter Daten, wie beim überwachten Lernen. In diesem Fall sind die Kategorien linear trennbar. Das rechte Bild zeigt Cluster von Daten. Bei einer unüberwachten Lernaufgabe wären diese Daten anfangs nicht gelabelt, und der Algorithmus würde die Verteilung untersuchen und möglicherweise nach Clustern suchen. Um die vom Algorithmus identifizierten Cluster beispielhaft zu visualisieren, wurden die Datenpunkte nun mit Labels versehen. Ein wesentlicher Unterschied zwischen beiden ist, dass der überwachte Lernprozess mit bereits gelabelten Daten beginnt, während der unüberwachte Prozess mit ungelabelten Daten startet – auch wenn die Daten am Ende mit Labels versehen sein können.
Wer sich mit Machine Learning auskennt, weiß bereits, dass viele Lösungsmethoden die Abbildung von Daten in höherdimensionale Räume beinhalten. Dies wurde besonders im Kontext von Kerneln intensiv erforscht. Zur kurzen Erinnerung: Manchmal lassen sich Daten durch eine Linie, eine Ebene oder eine Hyperebene (wir sagen der Einfachheit halber oft einfach „Hyperebene") in denselben Dimensionen trennen, in denen sie vorliegen. Das zeigt das erste Bild oben. Manchmal sind Daten in diesen Dimensionen jedoch nicht durch eine Hyperebene trennbar, wie das zweite Bild zeigt. Dennoch kann eine Struktur in den Daten vorhanden sein, die durch eine Abbildung in höhere Dimensionen ausgenutzt werden kann, sodass die Daten in diesem höherdimensionalen Raum trennbar sind. Das veranschaulicht die Abbildung der 2D-Daten mit kreisförmiger Symmetrie in den 3D-Raum, in dem die Datenpunkte entlang einer Paraboloid-Oberfläche angeordnet sind.

Ein häufiges Ziel im QML ist es, eine Abbildung aus dem niedrigerdimensionalen Merkmalsraum in einen höherdimensionalen Raum zu finden, die unsere Datenpunkte so wirksam trennt, dass wir die Abbildung zur Klassifizierung neuer Datenpunkte nutzen können. Doch das ist keine leichte Aufgabe, und jede Diskussion über den potenziellen Nutzen von Quantencomputing im Machine Learning muss mit den entsprechenden Einschränkungen versehen sein. Insbesondere müssen wir auf die Nuancen bei der Datensatzauswahl und die Herausforderungen beim Erreichen von Utility-Scale eingehen. Wir müssen auch aufhören, klassische ML-Algorithmen bei Daten übertreffen zu wollen, die von klassischen Algorithmen bereits effizient und gut behandelt werden, und stattdessen die Diskussion darauf verlagern, neue Merkmalskarten zu untersuchen, die nützlich sein könnten.
Erwartungen steuern
Viele in der Literatur beschriebene Datensätze für QML-Anwendungen sind „feature-engineered", d. h., ein Datensatz wird speziell ausgewählt oder erzeugt, um einen engen Anwendungsfall zu demonstrieren, in dem Quantencomputing nützlich ist. Wenn das nach Mogeln klingt, haben wir die eigentliche Aufgabe missverstanden. Es ist nicht so, dass einige Quanten-Merkmalskarten es uns ermöglichen, alle oder viele Klassifizierungsaufgaben effizienter oder skalierbarer zu lösen als klassische ML-Algorithmen. Vielmehr verhalten sich einige Quanten-Merkmalskarten (nicht alle) anders als klassische. Die eigentliche Aufgabe besteht darin, Quantenschaltkreise im Kontext komplexer Datenstrukturen zu untersuchen. Einige konkrete Fragen dabei sind:
- Welche Quantenschaltkreise verhalten sich am ehesten auf neuartige Weise, verglichen mit klassischen Alternativen?
- Gibt es reale Probleme mit Daten, deren Eigenschaften am besten mit solchen neuartigen Quantenschaltkreisen untersucht werden?
- Skalieren diese Quantenschaltkreise auf near-term Quantencomputern?
Unzureichende Erklärungen
Man begegnet häufig einer vereinfachten Erklärung, wie Quantencomputing leistungsfähig sein kann. Sie lautet ungefähr so:
So wie klassische Computer Informationsbits verwenden, nutzen Quantencomputer Qubits. Bei einer bestimmten Anzahl von Bits, sagen wir 4, kann ein klassischer Computer jeden der möglichen Zustände annehmen, während ein Quantencomputer in einer Superposition aller 16 Zustände gleichzeitig existieren kann, und Operationen können auf dieser gesamten Superposition durchgeführt werden. In manchen Fällen ermöglicht uns dies auf natürliche Weise, potenziell interessante Lernalgorithmen auf der Grundlage von Abbildungen in höherdimensionale Räume zu entwerfen.
Das ist eine zutreffende Aussage, aber sie ist unzureichend und etwas irreführend, wie wir erläutern werden. Man hebt auch die Unterschiede zwischen komplexen und reellen Koeffizienten hervor, zum Beispiel:
Ein probabilistisches klassisches System, in dem ein System als mit bestimmten Wahrscheinlichkeiten in verschiedenen Zuständen befindlich beschrieben werden kann, lässt sich wie folgt darstellen.