Eine sehr spannende Technik zur Beschleunigung der Inferenz ist Speculative Decoding. Dabei wird ein kleines, schnelleres Modell genutzt, um Vorschläge zu generieren, die dann von einem größeren Modell überprüft und übernommen oder verworfen werden.
In diesem Blogpost werde ich Speculative Decoding in llama.cpp genauer unter die Lupe nehmen und einen Performance-Vergleich mit und ohne diese Technik durchführen. Dabei kommt das leistungsstarke Qwen/Qwen2.5-Coder-32B-Instruct-Modell zum Einsatz, das für Code-Generierung optimiert ist. Der Fokus liegt auf den Auswirkungen von Speculative Decoding auf Geschwindigkeit und Antwortqualität. Ist die Technik ein echter Gamechanger oder nur eine nette Spielerei? Finden wir es heraus!
Für den Test habe ich auf meinem Jetson Orin 64GB Developer Kit llama.cpp mit CUDA Support installiert und den llama.cpp Server einmal mit dem Qwen/Qwen2.5-Coder-32B-Instruct
Die Installation erfolgt wie in der Anleitung beschrieben ohne Probleme (die ich ja eigentlich wegen der ARM64 Architektur des Jetson Orin 64GB Developer Kit eigentlich erwartet hätte).
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
sudo apt install curl libcurl4-openssl-dev
cmake -B build -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build build --config Release -j 6
cd build/bin/
Nach der Installation hat man im build/bin Ordner folgende Dateien:
total 468832
drwxrwxr-x 11 michael michael 4096 Apr 2 07:19 ..
-rwxrwxr-x 1 michael michael 574632 Apr 2 07:19 libggml-base.so
-rwxrwxr-x 1 michael michael 544832 Apr 2 07:19 libggml-cpu.so
-rwxrwxr-x 1 michael michael 404103496 Apr 2 07:38 libggml-cuda.so
-rwxrwxr-x 1 michael michael 43920 Apr 2 07:38 libggml.so
-rwxrwxr-x 1 michael michael 25240 Apr 2 07:38 llama-gguf
-rwxrwxr-x 1 michael michael 88296 Apr 2 07:38 llama-gguf-hash
-rwxrwxr-x 1 michael michael 1693976 Apr 2 07:38 libllama.so
-rwxrwxr-x 1 michael michael 8808 Apr 2 07:38 test-c
-rwxrwxr-x 1 michael michael 19928 Apr 2 07:38 llama-simple
-rwxrwxr-x 1 michael michael 25624 Apr 2 07:38 llama-simple-chat
-rwxrwxr-x 1 michael michael 211152 Apr 2 07:38 llama-quantize-stats
-rwxrwxr-x 1 michael michael 481880 Apr 2 07:38 libllava_shared.so
-rwxrwxr-x 1 michael michael 42480 Apr 2 07:39 test-sampling
-rwxrwxr-x 1 michael michael 37696 Apr 2 07:39 test-grammar-parser
-rwxrwxr-x 1 michael michael 606360 Apr 2 07:39 test-tokenizer-0
-rwxrwxr-x 1 michael michael 39616 Apr 2 07:39 test-llama-grammar
-rwxrwxr-x 1 michael michael 31560 Apr 2 07:39 test-log
-rwxrwxr-x 1 michael michael 596720 Apr 2 07:39 test-tokenizer-1-bpe
-rwxrwxr-x 1 michael michael 588288 Apr 2 07:39 test-tokenizer-1-spm
-rwxrwxr-x 1 michael michael 1923680 Apr 2 07:39 test-arg-parser
-rwxrwxr-x 1 michael michael 1654552 Apr 2 07:39 test-chat-template
-rwxrwxr-x 1 michael michael 65752 Apr 2 07:39 test-gguf
-rwxrwxr-x 1 michael michael 13616 Apr 2 07:39 test-model-load-cancel
-rwxrwxr-x 1 michael michael 15392 Apr 2 07:39 test-autorelease
-rwxrwxr-x 1 michael michael 19280 Apr 2 07:39 test-barrier
-rwxrwxr-x 1 michael michael 18928 Apr 2 07:39 test-quantize-fns
-rwxrwxr-x 1 michael michael 874504 Apr 2 07:39 test-grammar-integration
-rwxrwxr-x 1 michael michael 18736 Apr 2 07:39 test-rope
-rwxrwxr-x 1 michael michael 34912 Apr 2 07:39 test-quantize-perf
-rwxrwxr-x 1 michael michael 1935736 Apr 2 07:39 llama-batched-bench
-rwxrwxr-x 1 michael michael 1919136 Apr 2 07:39 llama-batched
-rwxrwxr-x 1 michael michael 1919464 Apr 2 07:39 llama-embedding
-rwxrwxr-x 1 michael michael 19904 Apr 2 07:39 llama-gbnf-validator
-rwxrwxr-x 1 michael michael 1915216 Apr 2 07:39 llama-eval-callback
-rwxrwxr-x 1 michael michael 41392 Apr 2 07:39 llama-gguf-split
-rwxrwxr-x 1 michael michael 871464 Apr 2 07:39 test-json-schema-to-grammar
-rwxrwxr-x 1 michael michael 1932104 Apr 2 07:39 llama-gritlm
-rwxrwxr-x 1 michael michael 1942232 Apr 2 07:39 llama-infill
-rwxrwxr-x 1 michael michael 1928288 Apr 2 07:39 llama-lookahead
-rwxrwxr-x 1 michael michael 1734264 Apr 2 07:39 test-chat
-rwxrwxr-x 1 michael michael 1962360 Apr 2 07:39 llama-imatrix
-rwxrwxr-x 1 michael michael 61504 Apr 2 07:39 llama-lookup-merge
-rwxrwxr-x 1 michael michael 1955608 Apr 2 07:39 llama-lookup
-rwxrwxr-x 1 michael michael 1942680 Apr 2 07:39 llama-lookup-create
-rwxrwxr-x 1 michael michael 1955728 Apr 2 07:39 llama-lookup-stats
-rwxrwxr-x 1 michael michael 1928232 Apr 2 07:39 llama-parallel
-rwxrwxr-x 1 michael michael 1927536 Apr 2 07:39 llama-passkey
-rwxrwxr-x 1 michael michael 1955056 Apr 2 07:39 llama-cli
-rwxrwxr-x 1 michael michael 621800 Apr 2 07:39 llama-quantize
-rwxrwxr-x 1 michael michael 1928904 Apr 2 07:39 llama-retrieval
-rwxrwxr-x 1 michael michael 579416 Apr 2 07:39 test-backend-ops
-rwxrwxr-x 1 michael michael 1927816 Apr 2 07:39 llama-save-load-state
-rwxrwxr-x 1 michael michael 2004984 Apr 2 07:39 llama-perplexity
-rwxrwxr-x 1 michael michael 726040 Apr 2 07:39 llama-bench
-rwxrwxr-x 1 michael michael 1924168 Apr 2 07:39 llama-speculative-simple
-rwxrwxr-x 1 michael michael 604528 Apr 2 07:39 llama-tokenize
-rwxrwxr-x 1 michael michael 1952160 Apr 2 07:39 llama-speculative
-rwxrwxr-x 1 michael michael 1919032 Apr 2 07:39 llama-gen-docs
-rwxrwxr-x 1 michael michael 621376 Apr 2 07:39 llama-convert-llama2c-to-ggml
-rwxrwxr-x 1 michael michael 1948560 Apr 2 07:39 llama-cvector-generator
-rwxrwxr-x 1 michael michael 1953256 Apr 2 07:39 llama-export-lora
-rwxrwxr-x 1 michael michael 1726000 Apr 2 07:39 llama-run
-rwxrwxr-x 1 michael michael 2196568 Apr 2 07:39 llama-llava-cli
-rwxrwxr-x 1 michael michael 471792 Apr 2 07:39 llama-llava-clip-quantize-cli
-rwxrwxr-x 1 michael michael 2208656 Apr 2 07:39 llama-minicpmv-cli
-rwxrwxr-x 1 michael michael 2200856 Apr 2 07:39 llama-qwen2vl-cli
-rwxrwxr-x 1 michael michael 18968 Apr 2 07:39 llama-vdot
-rwxrwxr-x 1 michael michael 2201472 Apr 2 07:39 llama-gemma3-cli
-rwxrwxr-x 1 michael michael 18456 Apr 2 07:39 llama-q8dot
-rwxrwxr-x 1 michael michael 2016824 Apr 2 07:39 llama-tts
-rwxrwxr-x 1 michael michael 3888952 Apr 2 07:40 llama-server
drwxrwxr-x 2 michael michael 4096 Apr 2 19:13 .
Den Server ohne aktiviertem Speculative Decoding starte ich mit folgendem Kommando.
./llama-server \
-m ~/.cache/llama.cpp/Qwen_Qwen2.5-Coder-32B-Instruct-GGUF_qwen2.5-coder-32b-instruct-q4_k_m.gguf
Den Server mit aktiviertem Speculative Decoding starte ich mit folgendem Kommando. Hierbei verwende ich das Qwen2.5-Coder-7B-Instruct als Draft Modell und das Qwen2.5-Coder-32B-Instruct Modell als Ziel-Modell.
./llama-server \
-m ~/.cache/llama.cpp/Qwen_Qwen2.5-Coder-32B-Instruct-GGUF_qwen2.5-coder-32b-instruct-q4_k_m.gguf \
-md ~/.cache/llama.cpp/bartowski_Qwen2.5-Coder-7B-Instruct-GGUF_Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf
Als Test-Prompt verwende ich „Implement a Python API that reads the character array, and generates a random key using these characters, and then stores it in SQLite DB.“. Mit dem folgenden curl Aufruf lade rufe ich den „completion“ Endpunkt des REST API auf.
curl --request POST \
--url http://127.0.0.1:8080/completion \
--header "Content-Type: application/json" \
--data '{"prompt": "Implement a Python API that reads the character array, and generates a random key using these characters, and then stores it in SQLite DB.","n_predict": 1024}'
Die Ergebnisse sehen dann wie folgt aus:
Timings ohne Speculative Decoding
"timings": {
"prompt_n": 27,
"prompt_ms": 6946.011,
"prompt_per_token_ms": 257.2596666666667,
"prompt_per_second": 3.8871231272164697,
"predicted_n": 1024,
"predicted_ms": 405458.062,
"predicted_per_token_ms": 395.955138671875,
"predicted_per_second": 2.5255386338821895
}
Timings mit Speculative Decoding
"timings": {
"prompt_n": 1,
"prompt_ms": 367.712,
"prompt_per_token_ms": 367.712,
"prompt_per_second": 2.719519624053607,
"predicted_n": 744,
"predicted_ms": 360748.263,
"predicted_per_token_ms": 484.87669758064516,
"predicted_per_second": 2.062379992665412,
"draft_n": 662,
"draft_n_accepted": 476
}
Fazit
Die Messergebnisse zeigen deutlich, dass Speculative Decoding die Generierungszeit pro Token erheblich reduzieren kann. Ohne Speculative Decoding benötigt das Modell 484,88 ms pro Token, während es mit der Technik nur 395,96 ms pro Token dauert.
Auch die Generierungsrate verbessert sich spürbar:
- Ohne Speculative Decoding: 2,06 Token/Sekunde
- Mit Speculative Decoding: 2,53 Token/Sekunde
Das bedeutet eine Steigerung der Generierungsgeschwindigkeit um ca. 20%.
Interessanterweise wurden beim Speculative Decoding 662 Token vorgeschlagen, von denen 476 akzeptiert wurden. Das zeigt, dass der kleinere „Draft“-Decoder eine sinnvolle Unterstützung für das größere Modell darstellt.
Fazit: Speculative Decoding bringt eine spürbare Geschwindigkeitssteigerung, ohne die Ausgabequalität negativ zu beeinflussen. Besonders bei großen Modellen wie Qwen2.5-Coder-32B-Instruct kann diese Technik helfen, die Wartezeit erheblich zu reduzieren. Wer auf eine schnellere Inferenz angewiesen ist, sollte Speculative Decoding definitiv in Betracht ziehen.