Welche GPU brauche ich für ein 70B-Modell?

Ein 70B-Modell (z. B. Llama 3.1 70B) benötigt in FP16 ca. 140 GB VRAM. Mit 4-Bit-Quantisierung (Q4_K_M) reduziert sich der Bedarf auf ca. 40 GB — damit passt es auf eine einzelne NVIDIA A100 80GB oder H100 80GB. Mit 8-Bit-Quantisierung (Q8_0) sind ca. 70 GB nötig — zwei A100 40GB oder eine A100 80GB. Für die beste Preis-Leistung: Eine A100 80GB mit Q4-Quantisierung.

Reicht eine NVIDIA RTX 4090 für den Unternehmenseinsatz?

Für kleine Teams (3–10 Nutzer) und Modelle bis 13B Parameter ist eine RTX 4090 (24 GB VRAM) ausreichend. Für 70B-Modelle in quantisierter Form ist sie ebenfalls nutzbar, aber die Performance ist für viele gleichzeitige Nutzer begrenzt. Für Teams ab 15 Nutzern empfehlen wir den Umstieg auf A100 oder L40S.

Was ist der Unterschied zwischen NVIDIA A100 und H100?

Die H100 ist der Nachfolger der A100 und bietet ca. 2–3x höhere Performance bei LLM-Inferenz dank des neuen Transformer Engine und HBM3-Speicher. Die A100 bietet jedoch ein deutlich besseres Preis-Leistungs-Verhältnis — besonders auf dem Gebrauchtmarkt (3.000–5.000 € vs. 25.000+ € für H100). Für die meisten Unternehmens-Use-Cases ist die A100 ausreichend.

Wie viel RAM braucht ein LLM-Server?

Mindestens doppelt so viel System-RAM wie VRAM Ihrer GPU(s). Für ein Setup mit einer A100 80GB empfehlen wir 256 GB RAM (DDR4 ECC oder DDR5). Der zusätzliche RAM wird für Modell-Loading, Betriebssystem, Open WebUI und als Puffer benötigt. Für Multi-GPU-Setups (2–4 GPUs) sind 512 GB empfehlenswert.

Kann ich Consumer-GPUs (RTX) statt Server-GPUs (A100) verwenden?

Ja, mit Einschränkungen. Consumer-GPUs wie die RTX 4090 (24 GB) oder RTX 5090 (32 GB) sind deutlich günstiger als Server-GPUs, haben aber weniger VRAM, keinen ECC-Speicher und sind nicht für den Dauerbetrieb in Rack-Servern konzipiert. Für ein Pilotprojekt oder kleine Teams sind sie eine kosteneffiziente Lösung. Für den 24/7-Produktivbetrieb empfehlen wir Server-GPUs.

Brauche ich spezielle Netzwerk-Hardware (InfiniBand)?

InfiniBand ist nur für Multi-Node-Setups erforderlich, bei denen ein einzelnes Modell über mehrere Server verteilt wird. Für Single-Server-Setups (selbst mit 4–8 GPUs) reicht ein Standard-Netzwerk (1–10 GbE). Die meisten mittelständischen Unternehmen kommen mit einem einzigen Server aus und benötigen kein InfiniBand.

Wie laut und groß ist ein GPU-Server?

Ein Rack-Server mit GPU ist erheblich lauter als ein Desktop-PC (60–80 dB unter Last). Für den Bürobetrieb ist ein separater Server-Raum oder Netzwerk-Schrank empfehlenswert. Alternativ: Tower-Workstations mit Consumer-GPUs (RTX 4090) sind deutlich leiser (35–45 dB) und können in einem Nebenraum betrieben werden. Abmessungen: Rack-Server 1–4 HE, Tower ca. 55 × 25 × 55 cm.

Hardware-Anforderungen für LLM: GPU-Vergleich & Server-Guide 2026

Aktueller Deep Dive: Reichen 128 GB gemeinsamer Speicher für neue Frontier-Modelle? Unser Praxischeck zu DeepSeek V4 Flash vergleicht die realen Modellgrößen mit Qwen 3.5, Kimi K3 und GLM-5.2.

Der entscheidende Faktor: VRAM

Bei LLM-Inferenz ist VRAM (Video RAM) der wichtigste Hardware-Parameter. Das gesamte Modell (oder zumindest die aktiven Layer) muss im VRAM der GPU Platz finden. Zu wenig VRAM bedeutet: Das Modell passt nicht — oder es muss quantisiert werden, was die Qualität reduziert.

VRAM-Bedarf nach Modellgröße

Modellgröße	FP16 (volle Qualität)	Q8_0 (8-Bit)	Q4_K_M (4-Bit)	Beispielmodelle
7–8B	~16 GB	~8 GB	~5 GB	Llama 3.1 8B, Qwen 2.5 7B, Gemma 2 9B
13–14B	~28 GB	~14 GB	~8 GB	Qwen 2.5 14B, Llama 2 13B
27–34B	~68 GB	~34 GB	~20 GB	Gemma 2 27B, Yi 34B
70–72B	~140 GB	~72 GB	~40 GB	Llama 3.1 70B, Qwen 2.5 72B
123B	~246 GB	~123 GB	~70 GB	Mistral Large 123B
405B	~810 GB	~405 GB	~230 GB	Llama 3.1 405B

Faustregel: Addieren Sie zum Modell-VRAM ca. 2–4 GB für KV-Cache (Context Window). Bei mehreren gleichzeitigen Nutzern steigt der KV-Cache-Bedarf proportional.

GPU-Vergleich: Die besten Karten für LLM-Inferenz

GPU	VRAM	Speicherbandbreite	FP16 TFLOPS	Preis (ca.)	Preis/VRAM-GB
NVIDIA H100 SXM	80 GB HBM3	3.350 GB/s	990	25.000–35.000 €	~375 €/GB
NVIDIA H100 PCIe	80 GB HBM3	2.039 GB/s	756	22.000–28.000 €	~313 €/GB
NVIDIA A100 SXM	80 GB HBM2e	2.039 GB/s	312	6.000–10.000 €	~100 €/GB
NVIDIA A100 PCIe	40/80 GB HBM2e	1.555/2.039 GB/s	312	3.000–8.000 €	~75–100 €/GB
NVIDIA L40S	48 GB GDDR6X	864 GB/s	366	7.000–10.000 €	~188 €/GB
NVIDIA RTX 4090	24 GB GDDR6X	1.008 GB/s	330	1.600–2.000 €	~75 €/GB
NVIDIA RTX 5090	32 GB GDDR7	1.792 GB/s	~420	2.200–2.800 €	~78 €/GB
AMD MI300X	192 GB HBM3	5.300 GB/s	1.308	10.000–15.000 €	~65 €/GB

GPU-Empfehlungen nach Use Case

Use Case	Empfohlene GPU	Begründung
Pilotprojekt / Evaluation	RTX 4090 (24 GB)	Günstigster Einstieg, reicht für 7B–13B-Modelle
Kleines Team (5–15 User)	RTX 5090 (32 GB) oder L40S (48 GB)	Mehr VRAM für größere Modelle
Mittelstand (15–50 User)	A100 80GB	Bestes Preis-Leistungs-Verhältnis für 70B-Modelle
Enterprise (50–200 User)	2–4x A100 80GB oder H100	Multi-GPU für Throughput und große Modelle
Maximale Performance	4–8x H100 SXM	Höchste Inferenz-Geschwindigkeit, 405B-Modelle

Server-Konfigurationen: 3 Referenz-Setups

Budget-Setup: ~5.000 €

GPU: NVIDIA RTX 4090 (24 GB VRAM)
CPU: AMD Ryzen 7 7700X (8 Kerne)
RAM: 64 GB DDR5
Speicher: 2 TB NVMe SSD
Gehäuse: Tower-Workstation mit gutem Airflow
Betriebssystem: Ubuntu 24.04 LTS
Eignung: 3–10 Nutzer, Modelle bis 13B (FP16) oder 70B (Q4)
Performance: ~30 Tokens/s mit Llama 3.1 8B, ~10 Tokens/s mit 70B Q4

Mid-Range-Setup: ~18.000 €

GPU: NVIDIA A100 80GB SXM (gebraucht: ~7.000 €)
CPU: AMD EPYC 9334 (32 Kerne)
RAM: 256 GB DDR5 ECC
Speicher: 4 TB NVMe SSD
Server: Supermicro GPU-Server (2U Rack)
Betriebssystem: Ubuntu 24.04 LTS Server
Eignung: 15–50 Nutzer, 70B-Modelle in Q4–Q8-Qualität
Performance: ~40 Tokens/s mit 70B Q4, ~25 Tokens/s mit 70B Q8

Enterprise-Setup: ~55.000 €

GPU: 2x NVIDIA H100 80GB PCIe
CPU: 2x AMD EPYC 9654 (2x 96 Kerne)
RAM: 512 GB DDR5 ECC
Speicher: 8 TB NVMe SSD (RAID 1)
Server: Enterprise Rack-Server (4U) mit redundanter Stromversorgung
Netzwerk: 25 GbE
Betriebssystem: Ubuntu 24.04 LTS Server
Eignung: 50–200 Nutzer, 123B-Modelle in FP16, 405B in Q4
Performance: ~60 Tokens/s mit 70B FP16, ~30 Tokens/s mit 405B Q4

Weitere Hardware-Komponenten

CPU-Anforderungen

Die CPU ist bei LLM-Inferenz weniger kritisch als die GPU, aber nicht unwichtig. Wichtige Faktoren:

PCIe-Lanes: Genügend PCIe 4.0/5.0 Lanes für GPU(s) und NVMe-SSDs
Kerne: Mindestens 8 Kerne für das Betriebssystem, Open WebUI und Preprocessing
AMD EPYC vs. Intel Xeon: AMD bietet aktuell mehr PCIe-Lanes und besseres Preis-Leistungs-Verhältnis
Consumer vs. Server: Für den 24/7-Betrieb empfehlen wir Server-CPUs mit ECC-Support

RAM-Empfehlungen

GPU-Setup	Minimum RAM	Empfohlen	Typ
1x RTX 4090 (24 GB)	32 GB	64 GB	DDR5
1x A100 80GB	128 GB	256 GB	DDR4/5 ECC
2x A100 80GB	256 GB	512 GB	DDR4/5 ECC
4x H100 80GB	512 GB	1 TB	DDR5 ECC

Speicher: NVMe SSD ist Pflicht

LLM-Modelle sind groß (ein 70B-Modell in Q4: ~40 GB, in FP16: ~140 GB). Schnelle NVMe-SSDs reduzieren die Ladezeit beim Modellwechsel erheblich:

Minimum: 2 TB NVMe SSD (für 2–3 Modelle)
Empfohlen: 4 TB NVMe SSD (für 5+ Modelle und Logs)
Enterprise: 8 TB NVMe RAID (für Modellbibliothek und Redundanz)
SATA SSDs: Nicht empfohlen — 5–10x langsamer beim Modell-Loading
HDDs: Nur für Backup/Archiv, nicht für aktive Modelle

Kühlung und Umgebung

Luftkühlung: Ausreichend für Single-GPU-Tower und 1–2 GPU-Rack-Server
Klimatisierung: Empfohlen ab 2+ GPUs im Dauerbetrieb (Server-Raum mit 18–24 °C)
Wasserkühlung: Für Custom-Builds mit Consumer-GPUs sinnvoll (Lärm-Reduktion)
Rack-Tiefe: GPU-Server benötigen oft Racks mit 1.000 mm Tiefe statt Standard 800 mm

Energieverbrauch und Stromkosten

Setup	TDP (gesamt)	Typischer Verbrauch	Kosten/Monat (0,25 €/kWh)
RTX 4090 Tower	~550 W	~300 W	~55 €
A100 80GB Server	~850 W	~500 W	~90 €
2x H100 Server	~1.800 W	~1.200 W	~220 €
4x H100 Server	~3.500 W	~2.200 W	~400 €

Fazit: Die richtige Hardware für Ihr Budget

Die Hardware-Wahl hängt von drei Faktoren ab: Budget, Nutzerzahl und Modellgröße. Unsere Empfehlungen:

Pilot/Evaluation: RTX 4090 Tower (~5.000 €) — starten Sie sofort und skalieren Sie bei Bedarf
Produktiver Einsatz: A100 80GB Server (~18.000 €) — 70B-Modelle für 15–50 Nutzer
Enterprise: Multi-GPU H100 (~55.000 €) — maximale Performance für 50–200 Nutzer

Tipp: Gebrauchte A100 GPUs bieten das beste Preis-Leistungs-Verhältnis. Starten Sie klein und skalieren Sie iterativ — die Architektur von Ollama und vLLM ermöglicht das.

Weiterführende Artikel:

🔧 Setup Guide — Hardware einrichten und LLM installieren
💰 Kosten & ROI — TCO-Analyse für verschiedene Setups
🔄 ChatGPT-Alternativen — Modellvergleich
🏢 Anbieter-Vergleich — Managed Hardware-Lösungen

Hardware-Anforderungen für LLM:
GPU-Vergleich & Server-Konfigurationen

Der entscheidende Faktor: VRAM

VRAM-Bedarf nach Modellgröße

GPU-Vergleich: Die besten Karten für LLM-Inferenz

GPU-Empfehlungen nach Use Case

Server-Konfigurationen: 3 Referenz-Setups

Budget-Setup: ~5.000 €

Mid-Range-Setup: ~18.000 €

Enterprise-Setup: ~55.000 €

Weitere Hardware-Komponenten

CPU-Anforderungen

RAM-Empfehlungen

Speicher: NVMe SSD ist Pflicht

Kühlung und Umgebung

Energieverbrauch und Stromkosten

Fazit: Die richtige Hardware für Ihr Budget

Häufig gestellte Fragen

Hardware-Empfehlungen aus der Praxis

Hardware-Anforderungen für LLM:GPU-Vergleich & Server-Konfigurationen

Der entscheidende Faktor: VRAM

VRAM-Bedarf nach Modellgröße

GPU-Vergleich: Die besten Karten für LLM-Inferenz

GPU-Empfehlungen nach Use Case

Server-Konfigurationen: 3 Referenz-Setups

Budget-Setup: ~5.000 €

Mid-Range-Setup: ~18.000 €

Enterprise-Setup: ~55.000 €

Weitere Hardware-Komponenten

CPU-Anforderungen

RAM-Empfehlungen

Speicher: NVMe SSD ist Pflicht

Kühlung und Umgebung

Energieverbrauch und Stromkosten

Fazit: Die richtige Hardware für Ihr Budget

Häufig gestellte Fragen

Hardware-Empfehlungen aus der Praxis

Hardware-Anforderungen für LLM:
GPU-Vergleich & Server-Konfigurationen