🖥️ Hardware-Guide

GPU-Server für LLM — Kaufguide 2025

Q: Welche GPU ist die beste für On-Premise LLM?

Für den Enterprise-Einsatz empfehlen wir die NVIDIA A100 80 GB — bestes Preis-Leistungs-Verhältnis, ausreichend VRAM für 70B-Modelle und breite Verfügbarkeit. Für maximale Performance ist die H100 die Wahl, für Budget-Einstiege die RTX 4090 . Detaillierte Vergleiche finden Sie oben in der GPU-Vergleichstabelle.

Aktualisiert: Juni 2025 · Lesezeit: ~15 Min. · Für IT-Leiter, CIOs & Infrastruktur-Teams

Für die meisten Enterprise-LLM-Deployments empfehlen wir einen Server mit 1–2x NVIDIA A100 80 GB (15.000–40.000 €) — das reicht für 70B-Modelle und 20–50 gleichzeitige Nutzer. Für den Einstieg genügt eine RTX 4090 (ab 5.000 €), für maximale Performance die H100. Dieser Guide vergleicht alle relevanten GPUs und hilft Ihnen, die richtige Hardware-Investition zu treffen — inklusive TCO-Berechnung, Strom und Kühlung.

GPU-Vergleich: H100, A100, L40S, RTX 4090

Eigenschaft	NVIDIA H100 SXM	NVIDIA A100 80GB	NVIDIA L40S	RTX 4090
VRAM	80 GB HBM3	80 GB HBM2e	48 GB GDDR6X	24 GB GDDR6X
Speicherbandbreite	3.350 GB/s	2.039 GB/s	864 GB/s	1.008 GB/s
FP16 TFLOPS	989	312	366	330
TDP (Watt)	700W	400W	350W	450W
NVLink	✅ 900 GB/s	✅ 600 GB/s	❌	❌
ECC Memory	✅	✅	✅	❌
Multi-Instance GPU	✅ 7 Instanzen	✅ 7 Instanzen	❌	❌
Formfaktor	SXM / PCIe	SXM / PCIe	PCIe Dual-Slot	PCIe Triple-Slot
Garantie	5 Jahre	5 Jahre	5 Jahre	2 Jahre
Data-Center-Lizenz	✅	✅	✅	❌ (EULA-Einschränkung)
Preis (ca., Stand 06/2025)	~30.000–40.000 €	~12.000–18.000 €	~8.000–12.000 €	~1.800–2.200 €

Performance-Vergleich für LLM-Inferenz

Wie schnell generiert jede GPU Tokens? Wir testen mit Llama 3.1 70B (Q4_K_M, Ollama) bei einem einzelnen Nutzer:

GPU	Llama 70B Q4 (Tokens/s)	Llama 8B Q4 (Tokens/s)	TTFT (70B, 512 Token Input)
H100 SXM 80GB	52 t/s	145 t/s	~120 ms
A100 80GB	28 t/s	92 t/s	~250 ms
L40S 48GB	— (zu wenig VRAM)	85 t/s	—
RTX 4090 24GB	— (zu wenig VRAM)	82 t/s	~220 ms
2x RTX 4090	18 t/s (via PCIe)	—	~500 ms

📊 Ergebnis: Die H100 ist fast doppelt so schnell wie die A100 bei LLM-Inferenz — dank höherer Speicherbandbreite (der Hauptengpass bei LLM-Workloads). Die L40S und RTX 4090 sind überraschend nah an der A100 bei kleinen Modellen, scheitern aber am VRAM bei 70B. Zwei RTX 4090 via PCIe-Bridge erreichen nur ~65% der A100-Performance für 70B, da der PCIe-Bus ein Flaschenhals ist (im Gegensatz zu NVLink).

Welche GPU für welches Modell?

Modell (Quantisiert)	VRAM benötigt	Minimum GPU	Empfohlene GPU
7–8B (Q4_K_M)	~5 GB	RTX 3090 (24 GB)	RTX 4090 (24 GB)
14B (Q4_K_M)	~9 GB	RTX 4090 (24 GB)	RTX 4090 (24 GB)
27B (Q4_K_M)	~16 GB	RTX 4090 (24 GB)	L40S (48 GB)
70B (Q4_K_M)	~40 GB	A100 80 GB	H100 80 GB
70B (FP16)	~140 GB	2x A100 80 GB	2x H100 80 GB
405B (Q4_K_M)	~230 GB	3x A100 80 GB	4x H100 80 GB

Welche Modelle für welche Aufgaben am besten geeignet sind, erfahren Sie in unserem Open-Source LLM Vergleich.

Server-Konfigurationen

Einstieg: Workstation (1x RTX 4090)

💻 Einstieg ~5.000–8.000 €

GPU: 1x NVIDIA RTX 4090 (24 GB)
CPU: AMD Ryzen 9 7950X oder Intel i9-14900K
RAM: 64 GB DDR5
Storage: 2 TB NVMe PCIe 4.0
Netzteil: 1000W 80+ Platinum
Geeignet für: 7B–27B-Modelle, 1–5 Nutzer, PoC

Mittelklasse: Rack-Server (1x A100 80 GB)

🏢 Enterprise ~20.000–35.000 €

GPU: 1x NVIDIA A100 80 GB PCIe
CPU: AMD EPYC 9354 (32 Kerne) oder Intel Xeon w9-3495X
RAM: 256 GB DDR5 ECC
Storage: 4 TB NVMe RAID-1
Formfaktor: 4U Rack-Server
Netzteil: 2x 1600W redundant
Geeignet für: 70B-Modelle, 10–30 Nutzer, Produktion

High-End: Multi-GPU Server (4x H100)

🚀 High-End ~180.000–280.000 €

GPU: 4x NVIDIA H100 SXM 80 GB + NVSwitch
CPU: 2x AMD EPYC 9654 (96 Kerne)
RAM: 1 TB DDR5 ECC
Storage: 8 TB NVMe RAID-10
Formfaktor: 5–8U Rack-Server (z.B. Supermicro SYS-421GE)
Netzteil: 2x 3000W redundant
Kühlung: Flüssigkühlung empfohlen
Geeignet für: 405B-Modelle, 100+ Nutzer, Multi-Modell-Betrieb

Stromverbrauch & Kühlung

GPU-Server sind energieintensiv — der Stromverbrauch ist ein wesentlicher Kostenfaktor und stellt Anforderungen an Ihre Infrastruktur.

Konfiguration	TDP (Watt)	System gesamt (inkl. CPU, RAM)	Stromkosten/Monat (0,30 €/kWh)
1x RTX 4090	450W	~650W	~140 €
1x A100 80 GB	400W	~700W	~150 €
2x A100 80 GB	800W	~1.200W	~260 €
4x H100 SXM	2.800W	~3.500W	~756 €
8x H100 SXM (DGX-Klasse)	5.600W	~7.500W	~1.620 €

Kühlung: Luft vs. Flüssig

Aspekt	Luftkühlung	Flüssigkühlung
Investition	Gering (Standard-Lüfter)	Hoch (5.000–15.000 € pro Rack)
Max. Rack-Dichte	10–15 kW pro Rack	30–100 kW pro Rack
Lautstärke	Hoch (70–85 dB)	Niedrig (40–55 dB)
PUE	1.4–1.8	1.05–1.2
GPU-Temperatur	75–85°C	55–65°C
Empfohlen ab	1–2 GPUs	4+ GPUs

⚡ Strom-Tipp: Prüfen Sie Ihren Stromanschluss! Ein 4x H100 Server benötigt einen 32A CEE-Anschluss (3-phasig, 400V). Viele Bürogebäude haben nur 16A-Absicherung pro Stromkreis — das reicht für maximal 1–2 GPUs. Sprechen Sie frühzeitig mit Ihrem Elektroinstallateur oder Rechenzentrumsbetreiber.

Rack-Anforderungen

Konfiguration	Höheneinheiten	Tiefe (cm)	Gewicht (kg)	Stromaufnahme
1x GPU Tower	— (Tower)	~55	~15	1x Schuko
1x A100 Rack-Server	4U	80–90	~35	2x C19 (16A)
4x H100 Rack-Server	5–8U	80–100	~70	2x CEE 32A
NVIDIA DGX H100	8U	93	~105	2x CEE 63A

Wichtig: Prüfen Sie die Rack-Tiefe. Standard-19"-Racks sind 60–80 cm tief. GPU-Server (besonders 4–8 GPU-Systeme) benötigen oft 90+ cm Tiefe. Stellen Sie sicher, dass Ihre Racks und Kabelmanagement-Systeme kompatibel sind.

TCO-Berechnung: 3-Jahres-Vergleich

Total Cost of Ownership über 3 Jahre, inklusive Hardware, Strom (0,30 €/kWh), Wartung und Kühlung:

Kostenposition	1x RTX 4090	1x A100 80 GB	4x H100 SXM
Hardware (einmalig)	6.500 €	28.000 €	220.000 €
Strom (3 Jahre)	5.050 €	5.400 €	27.200 €
Wartung & Support	500 €	4.200 €	15.000 €
Kühlung (anteilig)	1.000 €	2.000 €	12.000 €
TCO gesamt (3 Jahre)	13.050 €	39.600 €	274.200 €
Pro Monat	~363 €	~1.100 €	~7.617 €

💰 Vergleich mit Cloud-APIs: Ein Team von 20 Nutzern, das intensiv GPT-4 nutzt (je ~50.000 Tokens/Tag), zahlt bei OpenAI ca. 9.000–15.000 €/Monat. Derselbe Workload auf einer eigenen A100 kostet ~1.100 €/Monat (TCO). Die Amortisation erfolgt oft bereits nach 3–6 Monaten. Detaillierte Berechnungen finden Sie in unserer Kostenanalyse.

Beschaffung & Lieferanten in Deutschland

GPU-Server können Sie von verschiedenen Quellen beziehen:

Server-Hersteller (OEM)

Supermicro: Breites Portfolio, gutes Preis-Leistungs-Verhältnis, viele GPU-Konfigurationen
Dell Technologies: PowerEdge R760xa (bis 4x GPU), Enterprise-Support
Lenovo: ThinkSystem SR675 V3, guter Support in Deutschland
HPE: ProLiant DL380a Gen11, starker Enterprise-Support

Deutsche Systemhäuser

Thomas-Krenn: Österreichischer Anbieter mit starker DACH-Präsenz, Custom-Konfigurationen
Bechtle: Größtes IT-Systemhaus Europas, breites GPU-Server-Portfolio
Cancom: GPU-Server als Managed Service oder zum Kauf
Insight: Individuelle Konfigurationen mit Enterprise-Beratung

Cloud/Colocation mit dedizierter GPU

Hetzner: Dedicated GPU-Server ab ~200 €/Monat (A100), RZ in Nürnberg/Falkenstein
OVHcloud: GPU-Dedicated ab ~250 €/Monat, RZ in Frankfurt und Straßburg
IONOS: GPU-Server in deutschen Rechenzentren
Equinix Metal: Bare-Metal GPU-Server in Frankfurt

Unsere Empfehlungen

💻 PoC & Prototyp

1x RTX 4090 Workstation (~6.500 €)

Ideal für die erste Evaluierung mit 7B–27B-Modellen. Reicht für ein kleines Team (1–5 Nutzer) mit Ollama. Kann später als Entwicklungsmaschine weitergenutzt werden.

🏢 Enterprise Standard

1x A100 80 GB Rack-Server (~28.000 €)

Unser Top-Pick für die meisten Unternehmen. Betreibt 70B-Modelle (Qwen 72B, Llama 70B) mit 10–30 gleichzeitigen Nutzern. Erweitern Sie bei Bedarf auf 2x A100 für mehr Parallelität oder FP16-Betrieb.

🚀 Enterprise High-End

4x H100 SXM Server (~220.000 €)

Für große Organisationen mit >100 Nutzern, Multi-Modell-Betrieb oder 405B-Modelle. Maximale Performance dank NVLink-Interconnect. Oft günstiger als 4 einzelne A100-Server.

Weiterführende Ressourcen

Open-Source LLM Vergleich — Welches Modell auf welcher GPU?
Ollama Enterprise Guide — Software für Ihren GPU-Server
vLLM vs. Ollama — Die richtige Inference Engine
On-Premise LLM Kostenanalyse — TCO im Detail
DSGVO & KI — Compliance für Ihre GPU-Infrastruktur

Häufige Fragen zu GPU-Servern für LLM

Welche GPU ist die beste für On-Premise LLM?

Für den Enterprise-Einsatz empfehlen wir die NVIDIA A100 80 GB — bestes Preis-Leistungs-Verhältnis, ausreichend VRAM für 70B-Modelle und breite Verfügbarkeit. Für maximale Performance ist die H100 die Wahl, für Budget-Einstiege die RTX 4090. Detaillierte Vergleiche finden Sie oben in der GPU-Vergleichstabelle.

Kann ich Consumer-GPUs (RTX 4090) für LLM im Unternehmen nutzen?

Ja, mit Einschränkungen. Die RTX 4090 bietet 24 GB VRAM für 7B–27B-Modelle und ist deutlich günstiger als Data-Center-GPUs. Allerdings: NVIDIAs EULA untersagt den Einsatz von GeForce-Karten in Rechenzentren, die Garantie ist kürzer (2 statt 5 Jahre), kein ECC-RAM, und Multi-GPU (NVLink) wird nicht unterstützt. Für Prototypen und kleine Teams ist die RTX 4090 eine pragmatische Wahl.

Wie viel VRAM brauche ich für ein 70B-Modell?

Ein 70B-Modell in Q4-Quantisierung benötigt ca. 40 GB VRAM für die Modellgewichte plus zusätzlichen Speicher für den KV-Cache (abhängig von der Parallelität). Für den produktiven Betrieb mit mehreren gleichzeitigen Nutzern empfehlen wir mindestens 80 GB VRAM — also eine A100 80 GB oder H100 80 GB.

Was kostet ein GPU-Server für LLM?

Die Kosten variieren stark: Ein Einstiegsserver mit 1x RTX 4090 kostet ca. 5.000–8.000 €. Ein Enterprise-Server mit 1x A100 80 GB liegt bei 15.000–25.000 €. Ein High-End-System mit 4x H100 kostet 150.000–250.000 €. Hinzu kommen laufende Kosten für Strom (500–4.000 €/Monat je nach Konfiguration) und Kühlung.

Soll ich einen Server kaufen oder Colocation/Housing nutzen?

Das hängt von Ihrer bestehenden Infrastruktur ab. Wenn Sie bereits ein Rechenzentrum oder einen Serverraum mit ausreichend Stromversorgung und Kühlung haben, ist der Kauf wirtschaftlicher. Ohne eigene Infrastruktur ist Colocation bei einem deutschen Anbieter (z.B. Hetzner, IONOS, Equinix Frankfurt) eine gute Alternative — Sie behalten die volle Kontrolle über die Hardware bei professioneller Umgebung.

Reicht eine Luftkühlung für GPU-Server?

Für 1–2 GPUs (bis ~700W TDP) reicht hochwertige Luftkühlung in einem klimatisierten Serverraum (Zieltemperatur 18–22°C). Ab 4+ GPUs oder in Rack-dichten Umgebungen empfehlen wir Flüssigkühlung — sie reduziert den PUE-Wert, verlängert die GPU-Lebensdauer und ermöglicht höhere Rack-Dichten.

Wie hoch ist der Stromverbrauch eines GPU-Servers?

Rechnen Sie mit 0,5–2,5 kW pro GPU unter Last (RTX 4090: ~450W, A100: ~400W, H100: ~700W). Ein 4-GPU-Server mit H100 verbraucht unter Volllast ca. 4 kW (inkl. CPU, RAM, Kühlung). Bei 24/7-Betrieb und 0,30 €/kWh sind das ca. 1.050 €/Monat Stromkosten für einen 4-GPU-Server.

Welcher Server für Sie?

Besprechen Sie Ihre Hardware-Entscheidung mit erfahrenen Infrastruktur-Experten.

KI-Check starten →