Zum Inhalt springen
🖥️ Hardware-Guide

GPU-Server für LLM — Kaufguide 2025

Für die meisten Enterprise-LLM-Deployments empfehlen wir einen Server mit 1–2x NVIDIA A100 80 GB (15.000–40.000 €) — das reicht für 70B-Modelle und 20–50 gleichzeitige Nutzer. Für den Einstieg genügt eine RTX 4090 (ab 5.000 €), für maximale Performance die H100. Dieser Guide vergleicht alle relevanten GPUs und hilft Ihnen, die richtige Hardware-Investition zu treffen — inklusive TCO-Berechnung, Strom und Kühlung.

GPU-Vergleich: H100, A100, L40S, RTX 4090

Eigenschaft NVIDIA H100 SXM NVIDIA A100 80GB NVIDIA L40S RTX 4090
VRAM 80 GB HBM3 80 GB HBM2e 48 GB GDDR6X 24 GB GDDR6X
Speicherbandbreite 3.350 GB/s 2.039 GB/s 864 GB/s 1.008 GB/s
FP16 TFLOPS 989 312 366 330
TDP (Watt) 700W 400W 350W 450W
NVLink ✅ 900 GB/s ✅ 600 GB/s
ECC Memory
Multi-Instance GPU ✅ 7 Instanzen ✅ 7 Instanzen
Formfaktor SXM / PCIe SXM / PCIe PCIe Dual-Slot PCIe Triple-Slot
Garantie 5 Jahre 5 Jahre 5 Jahre 2 Jahre
Data-Center-Lizenz ❌ (EULA-Einschränkung)
Preis (ca., Stand 06/2025) ~30.000–40.000 € ~12.000–18.000 € ~8.000–12.000 € ~1.800–2.200 €

Performance-Vergleich für LLM-Inferenz

Wie schnell generiert jede GPU Tokens? Wir testen mit Llama 3.1 70B (Q4_K_M, Ollama) bei einem einzelnen Nutzer:

GPU Llama 70B Q4 (Tokens/s) Llama 8B Q4 (Tokens/s) TTFT (70B, 512 Token Input)
H100 SXM 80GB 52 t/s 145 t/s ~120 ms
A100 80GB 28 t/s 92 t/s ~250 ms
L40S 48GB — (zu wenig VRAM) 85 t/s
RTX 4090 24GB — (zu wenig VRAM) 82 t/s ~220 ms
2x RTX 4090 18 t/s (via PCIe) ~500 ms
📊 Ergebnis: Die H100 ist fast doppelt so schnell wie die A100 bei LLM-Inferenz — dank höherer Speicherbandbreite (der Hauptengpass bei LLM-Workloads). Die L40S und RTX 4090 sind überraschend nah an der A100 bei kleinen Modellen, scheitern aber am VRAM bei 70B. Zwei RTX 4090 via PCIe-Bridge erreichen nur ~65% der A100-Performance für 70B, da der PCIe-Bus ein Flaschenhals ist (im Gegensatz zu NVLink).

Welche GPU für welches Modell?

Modell (Quantisiert) VRAM benötigt Minimum GPU Empfohlene GPU
7–8B (Q4_K_M) ~5 GB RTX 3090 (24 GB) RTX 4090 (24 GB)
14B (Q4_K_M) ~9 GB RTX 4090 (24 GB) RTX 4090 (24 GB)
27B (Q4_K_M) ~16 GB RTX 4090 (24 GB) L40S (48 GB)
70B (Q4_K_M) ~40 GB A100 80 GB H100 80 GB
70B (FP16) ~140 GB 2x A100 80 GB 2x H100 80 GB
405B (Q4_K_M) ~230 GB 3x A100 80 GB 4x H100 80 GB

Welche Modelle für welche Aufgaben am besten geeignet sind, erfahren Sie in unserem Open-Source LLM Vergleich.

Server-Konfigurationen

Einstieg: Workstation (1x RTX 4090)

💻 Einstieg ~5.000–8.000 €
  • GPU: 1x NVIDIA RTX 4090 (24 GB)
  • CPU: AMD Ryzen 9 7950X oder Intel i9-14900K
  • RAM: 64 GB DDR5
  • Storage: 2 TB NVMe PCIe 4.0
  • Netzteil: 1000W 80+ Platinum
  • Geeignet für: 7B–27B-Modelle, 1–5 Nutzer, PoC

Mittelklasse: Rack-Server (1x A100 80 GB)

🏢 Enterprise ~20.000–35.000 €
  • GPU: 1x NVIDIA A100 80 GB PCIe
  • CPU: AMD EPYC 9354 (32 Kerne) oder Intel Xeon w9-3495X
  • RAM: 256 GB DDR5 ECC
  • Storage: 4 TB NVMe RAID-1
  • Formfaktor: 4U Rack-Server
  • Netzteil: 2x 1600W redundant
  • Geeignet für: 70B-Modelle, 10–30 Nutzer, Produktion

High-End: Multi-GPU Server (4x H100)

🚀 High-End ~180.000–280.000 €
  • GPU: 4x NVIDIA H100 SXM 80 GB + NVSwitch
  • CPU: 2x AMD EPYC 9654 (96 Kerne)
  • RAM: 1 TB DDR5 ECC
  • Storage: 8 TB NVMe RAID-10
  • Formfaktor: 5–8U Rack-Server (z.B. Supermicro SYS-421GE)
  • Netzteil: 2x 3000W redundant
  • Kühlung: Flüssigkühlung empfohlen
  • Geeignet für: 405B-Modelle, 100+ Nutzer, Multi-Modell-Betrieb

Stromverbrauch & Kühlung

GPU-Server sind energieintensiv — der Stromverbrauch ist ein wesentlicher Kostenfaktor und stellt Anforderungen an Ihre Infrastruktur.

Konfiguration TDP (Watt) System gesamt (inkl. CPU, RAM) Stromkosten/Monat (0,30 €/kWh)
1x RTX 4090 450W ~650W ~140 €
1x A100 80 GB 400W ~700W ~150 €
2x A100 80 GB 800W ~1.200W ~260 €
4x H100 SXM 2.800W ~3.500W ~756 €
8x H100 SXM (DGX-Klasse) 5.600W ~7.500W ~1.620 €

Kühlung: Luft vs. Flüssig

Aspekt Luftkühlung Flüssigkühlung
Investition Gering (Standard-Lüfter) Hoch (5.000–15.000 € pro Rack)
Max. Rack-Dichte 10–15 kW pro Rack 30–100 kW pro Rack
Lautstärke Hoch (70–85 dB) Niedrig (40–55 dB)
PUE 1.4–1.8 1.05–1.2
GPU-Temperatur 75–85°C 55–65°C
Empfohlen ab 1–2 GPUs 4+ GPUs
⚡ Strom-Tipp: Prüfen Sie Ihren Stromanschluss! Ein 4x H100 Server benötigt einen 32A CEE-Anschluss (3-phasig, 400V). Viele Bürogebäude haben nur 16A-Absicherung pro Stromkreis — das reicht für maximal 1–2 GPUs. Sprechen Sie frühzeitig mit Ihrem Elektroinstallateur oder Rechenzentrumsbetreiber.

Rack-Anforderungen

Konfiguration Höheneinheiten Tiefe (cm) Gewicht (kg) Stromaufnahme
1x GPU Tower — (Tower) ~55 ~15 1x Schuko
1x A100 Rack-Server 4U 80–90 ~35 2x C19 (16A)
4x H100 Rack-Server 5–8U 80–100 ~70 2x CEE 32A
NVIDIA DGX H100 8U 93 ~105 2x CEE 63A

Wichtig: Prüfen Sie die Rack-Tiefe. Standard-19"-Racks sind 60–80 cm tief. GPU-Server (besonders 4–8 GPU-Systeme) benötigen oft 90+ cm Tiefe. Stellen Sie sicher, dass Ihre Racks und Kabelmanagement-Systeme kompatibel sind.

TCO-Berechnung: 3-Jahres-Vergleich

Total Cost of Ownership über 3 Jahre, inklusive Hardware, Strom (0,30 €/kWh), Wartung und Kühlung:

Kostenposition 1x RTX 4090 1x A100 80 GB 4x H100 SXM
Hardware (einmalig) 6.500 € 28.000 € 220.000 €
Strom (3 Jahre) 5.050 € 5.400 € 27.200 €
Wartung & Support 500 € 4.200 € 15.000 €
Kühlung (anteilig) 1.000 € 2.000 € 12.000 €
TCO gesamt (3 Jahre) 13.050 € 39.600 € 274.200 €
Pro Monat ~363 € ~1.100 € ~7.617 €
💰 Vergleich mit Cloud-APIs: Ein Team von 20 Nutzern, das intensiv GPT-4 nutzt (je ~50.000 Tokens/Tag), zahlt bei OpenAI ca. 9.000–15.000 €/Monat. Derselbe Workload auf einer eigenen A100 kostet ~1.100 €/Monat (TCO). Die Amortisation erfolgt oft bereits nach 3–6 Monaten. Detaillierte Berechnungen finden Sie in unserer Kostenanalyse.

Beschaffung & Lieferanten in Deutschland

GPU-Server können Sie von verschiedenen Quellen beziehen:

Server-Hersteller (OEM)

  • Supermicro: Breites Portfolio, gutes Preis-Leistungs-Verhältnis, viele GPU-Konfigurationen
  • Dell Technologies: PowerEdge R760xa (bis 4x GPU), Enterprise-Support
  • Lenovo: ThinkSystem SR675 V3, guter Support in Deutschland
  • HPE: ProLiant DL380a Gen11, starker Enterprise-Support

Deutsche Systemhäuser

  • Thomas-Krenn: Österreichischer Anbieter mit starker DACH-Präsenz, Custom-Konfigurationen
  • Bechtle: Größtes IT-Systemhaus Europas, breites GPU-Server-Portfolio
  • Cancom: GPU-Server als Managed Service oder zum Kauf
  • Insight: Individuelle Konfigurationen mit Enterprise-Beratung

Cloud/Colocation mit dedizierter GPU

  • Hetzner: Dedicated GPU-Server ab ~200 €/Monat (A100), RZ in Nürnberg/Falkenstein
  • OVHcloud: GPU-Dedicated ab ~250 €/Monat, RZ in Frankfurt und Straßburg
  • IONOS: GPU-Server in deutschen Rechenzentren
  • Equinix Metal: Bare-Metal GPU-Server in Frankfurt

Unsere Empfehlungen

💻 PoC & Prototyp

1x RTX 4090 Workstation (~6.500 €)

Ideal für die erste Evaluierung mit 7B–27B-Modellen. Reicht für ein kleines Team (1–5 Nutzer) mit Ollama. Kann später als Entwicklungsmaschine weitergenutzt werden.

🏢 Enterprise Standard

1x A100 80 GB Rack-Server (~28.000 €)

Unser Top-Pick für die meisten Unternehmen. Betreibt 70B-Modelle (Qwen 72B, Llama 70B) mit 10–30 gleichzeitigen Nutzern. Erweitern Sie bei Bedarf auf 2x A100 für mehr Parallelität oder FP16-Betrieb.

🚀 Enterprise High-End

4x H100 SXM Server (~220.000 €)

Für große Organisationen mit >100 Nutzern, Multi-Modell-Betrieb oder 405B-Modelle. Maximale Performance dank NVLink-Interconnect. Oft günstiger als 4 einzelne A100-Server.

Weiterführende Ressourcen

Hardware-Beratung gesucht?

In unserer Community teilen IT-Leiter und Sysadmins ihre Erfahrungen mit GPU-Servern verschiedener Hersteller.

Community beitreten →

Häufige Fragen zu GPU-Servern für LLM

Welche GPU ist die beste für On-Premise LLM?

Für den Enterprise-Einsatz empfehlen wir die NVIDIA A100 80 GB — bestes Preis-Leistungs-Verhältnis, ausreichend VRAM für 70B-Modelle und breite Verfügbarkeit. Für maximale Performance ist die H100 die Wahl, für Budget-Einstiege die RTX 4090. Detaillierte Vergleiche finden Sie oben in der GPU-Vergleichstabelle.

Kann ich Consumer-GPUs (RTX 4090) für LLM im Unternehmen nutzen?

Ja, mit Einschränkungen. Die RTX 4090 bietet 24 GB VRAM für 7B–27B-Modelle und ist deutlich günstiger als Data-Center-GPUs. Allerdings: NVIDIAs EULA untersagt den Einsatz von GeForce-Karten in Rechenzentren, die Garantie ist kürzer (2 statt 5 Jahre), kein ECC-RAM, und Multi-GPU (NVLink) wird nicht unterstützt. Für Prototypen und kleine Teams ist die RTX 4090 eine pragmatische Wahl.

Wie viel VRAM brauche ich für ein 70B-Modell?

Ein 70B-Modell in Q4-Quantisierung benötigt ca. 40 GB VRAM für die Modellgewichte plus zusätzlichen Speicher für den KV-Cache (abhängig von der Parallelität). Für den produktiven Betrieb mit mehreren gleichzeitigen Nutzern empfehlen wir mindestens 80 GB VRAM — also eine A100 80 GB oder H100 80 GB.

Was kostet ein GPU-Server für LLM?

Die Kosten variieren stark: Ein Einstiegsserver mit 1x RTX 4090 kostet ca. 5.000–8.000 €. Ein Enterprise-Server mit 1x A100 80 GB liegt bei 15.000–25.000 €. Ein High-End-System mit 4x H100 kostet 150.000–250.000 €. Hinzu kommen laufende Kosten für Strom (500–4.000 €/Monat je nach Konfiguration) und Kühlung.

Soll ich einen Server kaufen oder Colocation/Housing nutzen?

Das hängt von Ihrer bestehenden Infrastruktur ab. Wenn Sie bereits ein Rechenzentrum oder einen Serverraum mit ausreichend Stromversorgung und Kühlung haben, ist der Kauf wirtschaftlicher. Ohne eigene Infrastruktur ist Colocation bei einem deutschen Anbieter (z.B. Hetzner, IONOS, Equinix Frankfurt) eine gute Alternative — Sie behalten die volle Kontrolle über die Hardware bei professioneller Umgebung.

Reicht eine Luftkühlung für GPU-Server?

Für 1–2 GPUs (bis ~700W TDP) reicht hochwertige Luftkühlung in einem klimatisierten Serverraum (Zieltemperatur 18–22°C). Ab 4+ GPUs oder in Rack-dichten Umgebungen empfehlen wir Flüssigkühlung — sie reduziert den PUE-Wert, verlängert die GPU-Lebensdauer und ermöglicht höhere Rack-Dichten.

Wie hoch ist der Stromverbrauch eines GPU-Servers?

Rechnen Sie mit 0,5–2,5 kW pro GPU unter Last (RTX 4090: ~450W, A100: ~400W, H100: ~700W). Ein 4-GPU-Server mit H100 verbraucht unter Volllast ca. 4 kW (inkl. CPU, RAM, Kühlung). Bei 24/7-Betrieb und 0,30 €/kWh sind das ca. 1.050 €/Monat Stromkosten für einen 4-GPU-Server.

Welcher Server für Sie?

Besprechen Sie Ihre Hardware-Entscheidung mit erfahrenen Infrastruktur-Experten.

Kostenlos im Slack austauschen →