Llama-4-Scout-17B-16E-Instruct auf dem Jetson Orin Developer Kit

Spoiler: Ja, das geht wirklich. Unsloth AI hat eine Version mit dynamischer 1,78-Bit-GGUFs Quantisierung veröffentlicht, die optimale Genauigkeit durch selektive Quantisierung der Schichten gewährleistet. Die Llama-4-Scout-17B-16E-Instruct-GGUF:IQ1_M Variante ist nur ca. 35GB groß und passt locker in den 64GB Speicher des Jetson Orin Developer Kit. Die 10.000.000 Kontextlänge wird man zwar vermutlich nicht nutzen können, da der KV Cache den VRAM sprengen würde, aber ich schätze mal eine Kontext Länge von 1.000.000 wird vermutlich machbar sein.

Also direkt mal das Modell herunterladen und dann mal testen

ollama run hf.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF:IQ1_M

To be continued ….. 🙂