Qiskit Code Assistant im lokalen Modus verwenden
Lerne, wie du eines der Qiskit Code Assistant-Modelle auf deinem lokalen Rechner installierst, konfigurierst und verwendest.
- Qiskit Code Assistant befindet sich im Preview-Release-Status und kann sich Àndern.
- Wenn du Feedback geben oder das Entwicklerteam kontaktieren möchtest, nutze den Qiskit Slack Workspace-Kanal oder die zugehörigen öffentlichen GitHub-Repositories.
Schnellstart (empfohlen)â
Der einfachste Weg, mit Qiskit Code Assistant im lokalen Modus zu beginnen, sind die automatisierten Setup-Skripte fĂŒr die VS Code- oder JupyterLab-Erweiterung. Diese Skripte installieren automatisch Ollama, um die LLMs auszufĂŒhren, laden das empfohlene Modell herunter und konfigurieren die Erweiterung fĂŒr dich.
Setup der VS Code-Erweiterungâ
FĂŒhre den folgenden Befehl in deinem Terminal aus:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-vscode/main/setup_local.sh)
Dieses Skript fĂŒhrt die folgenden Schritte aus:
- Ollama installieren (falls noch nicht vorhanden)
- Das empfohlene Qiskit Code Assistant-Modell herunterladen und konfigurieren
- Die VS Code-Erweiterung fĂŒr deine lokale Bereitstellung einrichten
Setup der JupyterLab-Erweiterungâ
FĂŒhre den folgenden Befehl in deinem Terminal aus:
bash <(curl -fsSL https://raw.githubusercontent.com/Qiskit/qiskit-code-assistant-jupyterlab/main/setup_local.sh)
Dieses Skript fĂŒhrt folgende Schritte aus:
- Ollama installieren (falls noch nicht vorhanden)
- Das empfohlene Qiskit Code Assistant-Modell herunterladen und konfigurieren
- Die JupyterLab-Erweiterung fĂŒr deine lokale Bereitstellung einrichten
VerfĂŒgbare Modelleâ
Aktuelle Modelleâ
Dies sind die neuesten empfohlenen Modelle fĂŒr die Verwendung mit Qiskit Code Assistant:
- Qiskit/mistral-small-3.2-24b-qiskit â Veröffentlicht Oktober 2025
- qiskit/qwen2.5-coder-14b-qiskit â Veröffentlicht Juni 2025
- qiskit/granite-3.3-8b-qiskit â Veröffentlicht Juni 2025
- qiskit/granite-3.2-8b-qiskit â Veröffentlicht Juni 2025
GGUF-Modelle (empfohlen fĂŒr persönliche Umgebungen/Laptops)â
GGUF-Format-Modelle sind fĂŒr den lokalen Einsatz optimiert und benötigen weniger Rechenressourcen:
-
mistral-small-3.2-24b-qiskit-GGUF â Veröffentlicht Oktober 2025 Trainiert mit Qiskit-Daten bis Version 2.1
-
qiskit/qwen2.5-coder-14b-qiskit-GGUF â Veröffentlicht Juni 2025 Trainiert mit Qiskit-Daten bis Version 2.0
-
qiskit/granite-3.3-8b-qiskit-GGUF â Veröffentlicht Juni 2025 Trainiert mit Qiskit-Daten bis Version 2.0
-
qiskit/granite-3.2-8b-qiskit-GGUF â Veröffentlicht Juni 2025 Trainiert mit Qiskit-Daten bis Version 2.0
Die Open-Source-Qiskit Code Assistant-Modelle sind im safetensors- oder GGUF-Dateiformat verfĂŒgbar und können wie nachfolgend beschrieben von Hugging Face heruntergeladen werden.
FĂŒr das Training verwendete Qiskit-Versionenâ
| Modell |  |  |  |  |  | Benchmark-Metriken |  |  |  |  | Veröffentlichungsdatum | Trainiert auf Qiskit-Version |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Â | QiskitHumanEval-Hard | QiskitHumanEval | HumanEval | ASDiv | MathQA | SciQ | MBPP | IFEval | CrowsPairs (English) | TruthfulQA (MC1 acc) | Â | Â |
| mistral-small-3.2-24b-qiskit | 32.45 | 47.02 | 77.49 | 3.77 | 49.68 | 97.50 | 64.00 | 48.44 | 67.08 | 39.41 | Januar 2026 | 2.2 |
| qwen2.5-coder-14b-qiskit | 25.17 | 49.01 | 91.46 | 4.21 | 53.90 | 97.00 | 77.60 | 49.64 | 65.18 | 37.82 | Juni 2025 | 2.0 |
| granite-3.3-8b-qiskit | 14.57 | 27.15 | 62.80 | 0.48 | 38.66 | 93.30 | 52.40 | 59.71 | 59.75 | 39.05 | Juni 2025 | 2.0 |
| granite-3.2-8b-qiskit | 9.93 | 24.50 | 57.32 | 0.09 | 41.41 | 96.30 | 51.80 | 60.79 | 66.79 | 40.51 | Juni 2025 | 2.0 |
| granite-8b-qiskit-rc-0.10 | 15.89 | 38.41 | 59.76 | â | â | â | â | â | â | â | Februar 2025 | 1.3 |
| granite-8b-qiskit | 17.88 | 44.37 | 53.66 | â | â | â | â | â | â | â | November 2024 | 1.2 |
Hinweis: Alle in der Benchmark-Tabelle aufgefĂŒhrten Modelle wurden mit ihrem jeweiligen System-Prompt ausgewertet, der im zugehörigen Hugging Face-Modell definiert ist.
Veraltete Modelleâ
Diese Modelle werden nicht mehr aktiv gepflegt, sind aber weiterhin verfĂŒgbar:
- qiskit/granite-8b-qiskit-rc-0.10 â Veröffentlicht Februar 2025 (veraltet)
- qiskit/granite-8b-qiskit â Veröffentlicht November 2024 (veraltet)
Erweitertes Setupâ
Wenn du deine lokale Umgebung lieber manuell konfigurieren oder mehr Kontrolle ĂŒber den Installationsprozess haben möchtest, klappe die folgenden Abschnitte auf.
Von der Hugging Face-Website herunterladen
Folge diesen Schritten, um ein beliebiges Qiskit Code Assistant-Modell von der Hugging Face-Website herunterzuladen:
- Rufe die gewĂŒnschte Qiskit-Modellseite auf Hugging Face auf.
- Gehe zum Tab Files and Versions und lade die safetensors- oder GGUF-Modelldateien herunter.
Mit der Hugging Face CLI herunterladen
Um eines der verfĂŒgbaren Qiskit Code Assistant-Modelle mit der Hugging Face CLI herunterzuladen, folge diesen Schritten:
-
Installiere die Hugging Face CLI
-
Melde dich bei deinem Hugging Face-Konto an
huggingface-cli login -
Lade das gewĂŒnschte Modell aus der vorherigen Liste herunter
huggingface-cli download <HF REPO NAME> <MODEL PATH> --local-dir <LOCAL PATH>
Qiskit Code Assistant-Modelle lokal manuell ĂŒber Ollama bereitstellen
Es gibt mehrere Möglichkeiten, das heruntergeladene Qiskit Code Assistant-Modell bereitzustellen und damit zu interagieren. Diese Anleitung zeigt die Verwendung von Ollama: entweder mit der Ollama-Anwendung ĂŒber die Hugging Face Hub-Integration oder ein lokales Modell, oder mit dem llama-cpp-python-Paket.
Die Ollama-Anwendung verwendenâ
Die Ollama-Anwendung bietet eine einfache Möglichkeit, LLMs lokal auszufĂŒhren. Die Bedienung ist unkompliziert â dank einer CLI, die den gesamten Setup-Prozess, die Modellverwaltung und die Interaktion ĂŒbersichtlich gestaltet. Sie eignet sich ideal fĂŒr schnelle Experimente und fĂŒr Nutzer, die sich weniger mit technischen Details befassen möchten.
Ollama installierenâ
-
Lade die Ollama-Anwendung herunter
-
Installiere die heruntergeladene Datei
-
Starte die installierte Ollama-Anwendung
infoDie Anwendung lĂ€uft erfolgreich, wenn das Ollama-Symbol in der Desktop-MenĂŒleiste erscheint. Du kannst auch ĂŒberprĂŒfen, ob der Dienst lĂ€uft, indem duhttp://localhost:11434/aufrufst. -
Teste Ollama in deinem Terminal und starte Modelle. Zum Beispiel:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Ollama mit der Hugging Face Hub-Integration einrichtenâ
Die Ollama/Hugging Face Hub-Integration ermöglicht die Interaktion mit auf dem Hugging Face Hub gehosteten Modellen, ohne eine neue Modelfile erstellen oder die GGUF- oder safetensors-Dateien manuell herunterladen zu mĂŒssen. Die Standard-template- und params-Dateien sind fĂŒr das Modell im Hugging Face Hub bereits enthalten.
-
Stelle sicher, dass die Ollama-Anwendung lÀuft.
-
Rufe die gewĂŒnschte Modellseite auf und kopiere die URL. Zum Beispiel: https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF.
-
FĂŒhre in deinem Terminal den folgenden Befehl aus:
ollama run hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit
Du kannst das Modell hf.co/Qiskit/Qwen2.5-Coder-14B-Qiskit oder eines der anderen aktuell empfohlenen offiziellen GGUF-Modelle hf.co/Qiskit/mistral-small-3.2-24b-qiskit-GGUF oder hf.co/Qiskit/granite-3.3-8b-qiskit-GGUF verwenden.
Ollama mit einem manuell heruntergeladenen Qiskit Code Assistant-GGUF-Modell einrichtenâ
Wenn du ein GGUF-Modell wie https://huggingface.co/Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF manuell heruntergeladen hast und mit verschiedenen Templates und Parametern experimentieren möchtest, kannst du diese Schritte befolgen, um es in deine lokale Ollama-Anwendung zu laden.
-
Erstelle eine
Modelfilemit folgendem Inhalt und ersetze<PATH-TO-GGUF-FILE>durch den tatsÀchlichen Pfad deines heruntergeladenen Modells.FROM <PATH-TO-GGUF-FILE>
TEMPLATE """{{ if .System }}
System:
{{ .System }}
{{ end }}{{ if .Prompt }}Question:
{{ .Prompt }}
{{ end }}Answer:
```python{{ .Response }}
"""
PARAMETER stop "Question:"
PARAMETER stop "Answer:"
PARAMETER stop "System:"
PARAMETER stop "```"
PARAMETER temperature 0
PARAMETER top_k 1 -
Run the following command to create a custom model instance based on the
Modelfile.ollama create Qwen2.5-Coder-14B-Qiskit -f ./path-to-model-filehinweisThis process may take some time for Ollama to read the model file, initialize the model instance, and configure it according to the specifications provided.
Run the Qiskit Code Assistant model manually downloaded in Ollamaâ
After the Qwen2.5-Coder-14B-Qiskit model has been set up in Ollama, run the following command to launch the model and interact with it in the terminal (in chat mode).
ollama run Qwen2.5-Coder-14B-Qiskit
Some useful commands:
ollama list- List models on your computerollama rm Qwen2.5-Coder-14B-Qiskit- Delete the modelollama show Qwen2.5-Coder-14B-Qiskit- Show model informationollama stop Qwen2.5-Coder-14B-Qiskit- Stop a model that is currently runningollama ps- List which models are currently loaded
Manually deploy the Qiskit Code Assistant models in local through the llama-cpp-python package
An alternative to the Ollama application is the llama-cpp-python package, which is a Python binding for llama.cpp. It gives you more control and flexibility to run the GGUF model locally, and is ideal for users who wish to integrate the local model in their workflows and Python applications.
- Install
llama-cpp-python - Interact with the model from within your application using
llama_cpp. For example:
from llama_cpp import Llama
model_path = <PATH-TO-GGUF-FILE>
model = Llama(
model_path,
seed=17,
n_ctx=10000,
n_gpu_layers=37, # to offload in gpu, but put 0 if all in cpu
)
input = 'Generate a quantum circuit with 2 qubits'
raw_pred = model(input)["choices"][0]["text"]
You can also add text generation parameters to the model to customize the inference:
generation_kwargs = {
"max_tokens": 512,
"echo": False, # Echo the prompt in the output
"top_k": 1
}
raw_pred = model(input, **generation_kwargs)["choices"][0]["text"]
Manually deploy the Qiskit Code Assistant models in local through llama.cpp
Use the llama.cpp libraryâ
Another alternative is to use llama.cpp, an open-source library for performing LLM inference on a CPU with minimal setup.
It provides low-level control over the model execution and is typically run from the command line, pointing to a local GGUF model file.
There are several ways to install llama.cpp on your machine:
- Install llama.cpp using brew, nix, or winget
- Run with Docker: See out the Docker documentation by
llama.cppteam - Download pre-built binaries from the releases page
- Build from source by cloning this repository
Once installed, you can use llama.cpp to interact with GGUF models in conversation mode as follows:
# Use a local model file
llama-cli -m my_model.gguf -cnv
# Or download and run a model directly from Hugging Face
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF -cnv
You can also launch an OpenAI-compatible API server for the model in the following way:
llama-server -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF
Advanced parametersâ
With the llama-cli program, you can control the model generation using command-line options. For example, you can provide an initial âsystemâ prompt using the -p/--prompt flag. In conversation mode (-cnv), this initial prompt acts as the system message. Otherwise, you can simply prepend any desired instruction to your prompt text. You can also adjust sampling parameters - for instance: temperature (--temp), top-k (--top-k), top-p (--top-p), repetition penalty (--repeat-penalty), and the seed to use (--seed). The following is an example invocation using these options:
llama-cli -hf Qiskit/Qwen2.5-Coder-14B-Qiskit-GGUF \
-p "You are a friendly assistant." -cnv \
--temp 0.7 \
--top-k 50 \
--top-p 0.95 \
--repeat-penalty 1.1 \
--seed 42
Um die korrekte FunktionalitĂ€t unserer Qiskit-Modelle sicherzustellen, empfehlen wir, den in unseren HF GGUF-Repositories bereitgestellten System-Prompt zu verwenden: System-Prompt fĂŒr mistral-small-3.2-24b-qiskit-GGUF, Qwen2.5-Coder-14B-Qiskit-GGUF, granite-3.3-8b-qiskit-GGUF und granite-3.2-8b-qiskit-GGUF.
Erweiterungen manuell mit der lokalen Bereitstellung verbinden
Verwende die VS Code-Erweiterung und die JupyterLab-Erweiterung fĂŒr den Qiskit Code Assistant, um das lokal bereitgestellte Qiskit Code Assistant-Modell anzusprechen. Sobald du die Ollama-Anwendung mit dem Modell eingerichtet hast, kannst du die Erweiterungen so konfigurieren, dass sie sich mit dem lokalen Dienst verbinden.
Mit der Qiskit Code Assistant VS Code-Erweiterung verbindenâ
Mit der Qiskit Code Assistant VS Code-Erweiterung kannst du mit dem Modell interagieren und wĂ€hrend des Schreibens deines Codes Code-VervollstĂ€ndigungen erhalten. Das eignet sich gut fĂŒr Nutzer, die beim Schreiben von Qiskit-Code in ihren Python-Anwendungen UnterstĂŒtzung suchen.
- Installiere die Qiskit Code Assistant VS Code-Erweiterung.
- Gehe in VS Code zu den Benutzereinstellungen und setze Qiskit Code Assistant: Url auf die URL deiner lokalen Ollama-Bereitstellung (zum Beispiel
http://localhost:11434). - Lade VS Code neu, indem du zu Ansicht > Befehlspalette... gehst und Entwickler: Fenster neu laden auswÀhlst.
Das in Ollama konfigurierte Qiskit Code Assistant-Modell sollte in der Statusleiste erscheinen und ist dann einsatzbereit.
Mit der Qiskit Code Assistant JupyterLab-Erweiterung verbindenâ
Mit der Qiskit Code Assistant JupyterLab-Erweiterung kannst du mit dem Modell interagieren und Code-VervollstÀndigungen direkt in deinem Jupyter Notebook erhalten. Nutzer, die hauptsÀchlich mit Jupyter Notebooks arbeiten, können diese Erweiterung nutzen, um ihr Erlebnis beim Schreiben von Qiskit-Code weiter zu verbessern.
- Installiere die Qiskit Code Assistant JupyterLab-Erweiterung.
- Gehe in JupyterLab zum Einstellungs-Editor und setze Qiskit Code Assistant Service API auf die URL deiner lokalen Ollama-Bereitstellung (zum Beispiel
http://localhost:11434).
Das in Ollama konfigurierte Qiskit Code Assistant-Modell sollte in der Statusleiste erscheinen und ist dann einsatzbereit.