Zum Inhalt springen
🖥️ Hardware

Hardware-Anforderungen für LLM:
GPU-Vergleich & Server-Konfigurationen

Die GPU ist die wichtigste Komponente für On-Premise LLM — und die teuerste. Dieser Guide vergleicht alle relevanten GPUs (H100, A100, L40S, RTX 4090), zeigt VRAM-Anforderungen für verschiedene Modellgrößen und empfiehlt konkrete Server-Konfigurationen für jedes Budget.

Der entscheidende Faktor: VRAM

Bei LLM-Inferenz ist VRAM (Video RAM) der wichtigste Hardware-Parameter. Das gesamte Modell (oder zumindest die aktiven Layer) muss im VRAM der GPU Platz finden. Zu wenig VRAM bedeutet: Das Modell passt nicht — oder es muss quantisiert werden, was die Qualität reduziert.

VRAM-Bedarf nach Modellgröße

Modellgröße FP16 (volle Qualität) Q8_0 (8-Bit) Q4_K_M (4-Bit) Beispielmodelle
7–8B ~16 GB ~8 GB ~5 GB Llama 3.1 8B, Qwen 2.5 7B, Gemma 2 9B
13–14B ~28 GB ~14 GB ~8 GB Qwen 2.5 14B, Llama 2 13B
27–34B ~68 GB ~34 GB ~20 GB Gemma 2 27B, Yi 34B
70–72B ~140 GB ~72 GB ~40 GB Llama 3.1 70B, Qwen 2.5 72B
123B ~246 GB ~123 GB ~70 GB Mistral Large 123B
405B ~810 GB ~405 GB ~230 GB Llama 3.1 405B

Faustregel: Addieren Sie zum Modell-VRAM ca. 2–4 GB für KV-Cache (Context Window). Bei mehreren gleichzeitigen Nutzern steigt der KV-Cache-Bedarf proportional.

GPU-Vergleich: Die besten Karten für LLM-Inferenz

GPU VRAM Speicherbandbreite FP16 TFLOPS Preis (ca.) Preis/VRAM-GB
NVIDIA H100 SXM 80 GB HBM3 3.350 GB/s 990 25.000–35.000 € ~375 €/GB
NVIDIA H100 PCIe 80 GB HBM3 2.039 GB/s 756 22.000–28.000 € ~313 €/GB
NVIDIA A100 SXM 80 GB HBM2e 2.039 GB/s 312 6.000–10.000 € ~100 €/GB
NVIDIA A100 PCIe 40/80 GB HBM2e 1.555/2.039 GB/s 312 3.000–8.000 € ~75–100 €/GB
NVIDIA L40S 48 GB GDDR6X 864 GB/s 366 7.000–10.000 € ~188 €/GB
NVIDIA RTX 4090 24 GB GDDR6X 1.008 GB/s 330 1.600–2.000 € ~75 €/GB
NVIDIA RTX 5090 32 GB GDDR7 1.792 GB/s ~420 2.200–2.800 € ~78 €/GB
AMD MI300X 192 GB HBM3 5.300 GB/s 1.308 10.000–15.000 € ~65 €/GB

GPU-Empfehlungen nach Use Case

Use Case Empfohlene GPU Begründung
Pilotprojekt / Evaluation RTX 4090 (24 GB) Günstigster Einstieg, reicht für 7B–13B-Modelle
Kleines Team (5–15 User) RTX 5090 (32 GB) oder L40S (48 GB) Mehr VRAM für größere Modelle
Mittelstand (15–50 User) A100 80GB Bestes Preis-Leistungs-Verhältnis für 70B-Modelle
Enterprise (50–200 User) 2–4x A100 80GB oder H100 Multi-GPU für Throughput und große Modelle
Maximale Performance 4–8x H100 SXM Höchste Inferenz-Geschwindigkeit, 405B-Modelle

Server-Konfigurationen: 3 Referenz-Setups

Budget-Setup: ~5.000 €

  • GPU: NVIDIA RTX 4090 (24 GB VRAM)
  • CPU: AMD Ryzen 7 7700X (8 Kerne)
  • RAM: 64 GB DDR5
  • Speicher: 2 TB NVMe SSD
  • Gehäuse: Tower-Workstation mit gutem Airflow
  • Betriebssystem: Ubuntu 24.04 LTS
  • Eignung: 3–10 Nutzer, Modelle bis 13B (FP16) oder 70B (Q4)
  • Performance: ~30 Tokens/s mit Llama 3.1 8B, ~10 Tokens/s mit 70B Q4

Mid-Range-Setup: ~18.000 €

  • GPU: NVIDIA A100 80GB SXM (gebraucht: ~7.000 €)
  • CPU: AMD EPYC 9334 (32 Kerne)
  • RAM: 256 GB DDR5 ECC
  • Speicher: 4 TB NVMe SSD
  • Server: Supermicro GPU-Server (2U Rack)
  • Betriebssystem: Ubuntu 24.04 LTS Server
  • Eignung: 15–50 Nutzer, 70B-Modelle in Q4–Q8-Qualität
  • Performance: ~40 Tokens/s mit 70B Q4, ~25 Tokens/s mit 70B Q8

Enterprise-Setup: ~55.000 €

  • GPU: 2x NVIDIA H100 80GB PCIe
  • CPU: 2x AMD EPYC 9654 (2x 96 Kerne)
  • RAM: 512 GB DDR5 ECC
  • Speicher: 8 TB NVMe SSD (RAID 1)
  • Server: Enterprise Rack-Server (4U) mit redundanter Stromversorgung
  • Netzwerk: 25 GbE
  • Betriebssystem: Ubuntu 24.04 LTS Server
  • Eignung: 50–200 Nutzer, 123B-Modelle in FP16, 405B in Q4
  • Performance: ~60 Tokens/s mit 70B FP16, ~30 Tokens/s mit 405B Q4
💬

Hardware-Beratung gesucht?In unserer Community teilen Experten ihre Server-Konfigurationen und Erfahrungen.

Kostenlos austauschen →

Weitere Hardware-Komponenten

CPU-Anforderungen

Die CPU ist bei LLM-Inferenz weniger kritisch als die GPU, aber nicht unwichtig. Wichtige Faktoren:

  • PCIe-Lanes: Genügend PCIe 4.0/5.0 Lanes für GPU(s) und NVMe-SSDs
  • Kerne: Mindestens 8 Kerne für das Betriebssystem, Open WebUI und Preprocessing
  • AMD EPYC vs. Intel Xeon: AMD bietet aktuell mehr PCIe-Lanes und besseres Preis-Leistungs-Verhältnis
  • Consumer vs. Server: Für den 24/7-Betrieb empfehlen wir Server-CPUs mit ECC-Support

RAM-Empfehlungen

GPU-Setup Minimum RAM Empfohlen Typ
1x RTX 4090 (24 GB) 32 GB 64 GB DDR5
1x A100 80GB 128 GB 256 GB DDR4/5 ECC
2x A100 80GB 256 GB 512 GB DDR4/5 ECC
4x H100 80GB 512 GB 1 TB DDR5 ECC

Speicher: NVMe SSD ist Pflicht

LLM-Modelle sind groß (ein 70B-Modell in Q4: ~40 GB, in FP16: ~140 GB). Schnelle NVMe-SSDs reduzieren die Ladezeit beim Modellwechsel erheblich:

  • Minimum: 2 TB NVMe SSD (für 2–3 Modelle)
  • Empfohlen: 4 TB NVMe SSD (für 5+ Modelle und Logs)
  • Enterprise: 8 TB NVMe RAID (für Modellbibliothek und Redundanz)
  • SATA SSDs: Nicht empfohlen — 5–10x langsamer beim Modell-Loading
  • HDDs: Nur für Backup/Archiv, nicht für aktive Modelle

Kühlung und Umgebung

  • Luftkühlung: Ausreichend für Single-GPU-Tower und 1–2 GPU-Rack-Server
  • Klimatisierung: Empfohlen ab 2+ GPUs im Dauerbetrieb (Server-Raum mit 18–24 °C)
  • Wasserkühlung: Für Custom-Builds mit Consumer-GPUs sinnvoll (Lärm-Reduktion)
  • Rack-Tiefe: GPU-Server benötigen oft Racks mit 1.000 mm Tiefe statt Standard 800 mm

Energieverbrauch und Stromkosten

Setup TDP (gesamt) Typischer Verbrauch Kosten/Monat (0,25 €/kWh)
RTX 4090 Tower ~550 W ~300 W ~55 €
A100 80GB Server ~850 W ~500 W ~90 €
2x H100 Server ~1.800 W ~1.200 W ~220 €
4x H100 Server ~3.500 W ~2.200 W ~400 €

Fazit: Die richtige Hardware für Ihr Budget

Die Hardware-Wahl hängt von drei Faktoren ab: Budget, Nutzerzahl und Modellgröße. Unsere Empfehlungen:

  • Pilot/Evaluation: RTX 4090 Tower (~5.000 €) — starten Sie sofort und skalieren Sie bei Bedarf
  • Produktiver Einsatz: A100 80GB Server (~18.000 €) — 70B-Modelle für 15–50 Nutzer
  • Enterprise: Multi-GPU H100 (~55.000 €) — maximale Performance für 50–200 Nutzer

Tipp: Gebrauchte A100 GPUs bieten das beste Preis-Leistungs-Verhältnis. Starten Sie klein und skalieren Sie iterativ — die Architektur von Ollama und vLLM ermöglicht das.

Weiterführende Artikel:

Häufig gestellte Fragen

Welche GPU brauche ich für ein 70B-Modell?

Ein 70B-Modell (z. B. Llama 3.1 70B) benötigt in FP16 ca. 140 GB VRAM. Mit 4-Bit-Quantisierung (Q4_K_M) reduziert sich der Bedarf auf ca. 40 GB — damit passt es auf eine einzelne NVIDIA A100 80GB oder H100 80GB. Mit 8-Bit-Quantisierung (Q8_0) sind ca. 70 GB nötig — zwei A100 40GB oder eine A100 80GB. Für die beste Preis-Leistung: Eine A100 80GB mit Q4-Quantisierung.

Reicht eine NVIDIA RTX 4090 für den Unternehmenseinsatz?

Für kleine Teams (3–10 Nutzer) und Modelle bis 13B Parameter ist eine RTX 4090 (24 GB VRAM) ausreichend. Für 70B-Modelle in quantisierter Form ist sie ebenfalls nutzbar, aber die Performance ist für viele gleichzeitige Nutzer begrenzt. Für Teams ab 15 Nutzern empfehlen wir den Umstieg auf A100 oder L40S.

Was ist der Unterschied zwischen NVIDIA A100 und H100?

Die H100 ist der Nachfolger der A100 und bietet ca. 2–3x höhere Performance bei LLM-Inferenz dank des neuen Transformer Engine und HBM3-Speicher. Die A100 bietet jedoch ein deutlich besseres Preis-Leistungs-Verhältnis — besonders auf dem Gebrauchtmarkt (3.000–5.000 € vs. 25.000+ € für H100). Für die meisten Unternehmens-Use-Cases ist die A100 ausreichend.

Wie viel RAM braucht ein LLM-Server?

Mindestens doppelt so viel System-RAM wie VRAM Ihrer GPU(s). Für ein Setup mit einer A100 80GB empfehlen wir 256 GB RAM (DDR4 ECC oder DDR5). Der zusätzliche RAM wird für Modell-Loading, Betriebssystem, Open WebUI und als Puffer benötigt. Für Multi-GPU-Setups (2–4 GPUs) sind 512 GB empfehlenswert.

Kann ich Consumer-GPUs (RTX) statt Server-GPUs (A100) verwenden?

Ja, mit Einschränkungen. Consumer-GPUs wie die RTX 4090 (24 GB) oder RTX 5090 (32 GB) sind deutlich günstiger als Server-GPUs, haben aber weniger VRAM, keinen ECC-Speicher und sind nicht für den Dauerbetrieb in Rack-Servern konzipiert. Für ein Pilotprojekt oder kleine Teams sind sie eine kosteneffiziente Lösung. Für den 24/7-Produktivbetrieb empfehlen wir Server-GPUs.

Brauche ich spezielle Netzwerk-Hardware (InfiniBand)?

InfiniBand ist nur für Multi-Node-Setups erforderlich, bei denen ein einzelnes Modell über mehrere Server verteilt wird. Für Single-Server-Setups (selbst mit 4–8 GPUs) reicht ein Standard-Netzwerk (1–10 GbE). Die meisten mittelständischen Unternehmen kommen mit einem einzigen Server aus und benötigen kein InfiniBand.

Wie laut und groß ist ein GPU-Server?

Ein Rack-Server mit GPU ist erheblich lauter als ein Desktop-PC (60–80 dB unter Last). Für den Bürobetrieb ist ein separater Server-Raum oder Netzwerk-Schrank empfehlenswert. Alternativ: Tower-Workstations mit Consumer-GPUs (RTX 4090) sind deutlich leiser (35–45 dB) und können in einem Nebenraum betrieben werden. Abmessungen: Rack-Server 1–4 HE, Tower ca. 55 × 25 × 55 cm.

Hardware-Empfehlungen aus der Praxis

Erfahren Sie, welche Server-Konfigurationen andere Unternehmen erfolgreich einsetzen.

Community beitreten →