Lokaler KI Server fürs Unternehmen

Hintergrund

Wer seine Daten freiwillig hergibt, dem ist nicht mehr zu helfen. Gerade mittelständische Unternehmen mit weniger Erfahrung im IT-Bereich sind aktuell sehr gefährdet, KI-Systemen unfreiwillig ihrer Geheimnisse anzuvertrauen. Da gibt es den Mitarbeiter der sich von KI die Kostenanalyse eines Projekts analysieren lässt, oder die PA welche sich per KI das Protokoll von Ihren Mitschriften der letzten Vorstandssitzung ins reine schreiben lässt oder den Marketing Mitarbeiter der sich mit den Kundendaten seine neue Marketing-Strategie entwickeln lässt. Sie glauben nicht, dass dies sein kein? Doch, gehen Sie davon aus, dass jeder der mit KI arbeitet irgend wann brisante Informationen damit (un)freiwillig verarbeitet. Wir leben im Informationszeitalter, das heißt, dass derjenige der als erster auf Informationen Zugriff hat gleichzeitig den unfairen Vorteil nutzen kann. Fragen Sie sich welche Vorteile bieten die überall verfügbaren KI-Cloud-Anwendungen für den Betreiber? Lesen Sie doch "wirklich" mal die Nutzungsbedingungen bekannter Anbieter durch. Es hilft nicht sich darüber zu beschweren, sondern nach Möglichen zu suchen, damit ihre Informationen durch KI-Einsatz nicht Fremdgehen.

Was ist das Ziel?

Grundsätzlich können Sie aktuell KI-System in zweierlei Art und Weise nutzen, erstens als Anwendung in der Cloud und zweitens als Anwendung auf Inhouse-Servern. Das Sie bei Cloud-Anwendungen immer dem Anbieter vertrauen müssen, muss ich Ihnen nicht erklären. Auch aus Sicht der IT-Sicherheit handelt es sich um ein zentrales System mit besonderen Risiken bezüglich dem Zugriff Dritter. Ich möchte Ihnen nun zeigen, wie mittelständische Unternehmen die Risiken von Cloud-KI-Systemen umgehen können, in dem Sie lokale KI-Server und Anwendung nutzen. Um es gleich vorweg zu nehmen, auch lokale KI-Systeme haben Risiken, die Sie kennen und verstehen sollten. Zudem entstehen für Sie Investitionskosten bzgl. Hardware und laufende Kosten in Puncto Wartung, Absicherung, Energie und Support. Wir werden das Thema so praktisch wie möglich angehen und die Hardware mit Standard Software testen.

Können KMU von einem lokalen KI-Server profitieren?

Unbedingt und irgendwann wird es keine andere Möglichkeit geben, um nicht im globalen Wettbewerb unter die Räder zu kommen. Lokale KI-Server verhindern das Erspähen von Daten durch die IT-Giganten, zudem wird dadurch langfristig eine eigen KI-Kompetenz im Unternehmen aufgebaut und Mittelfristig können so Kosten reduziert werden. Letztlich geht es um die Reduktion von Abhängigkeiten die dafür sorgt, dass KMU trotz zunehmender Digitalisierung handlungsfähig bleiben. Je mehr Produktionsschritte Sie nicht kontrollieren, um so mehr Risiken gehen Sie letztlich ein. Digitalisierung sorgt immer für eine Konzentration auf wenige Anbieter, die den Markt zunehmend für sich abschöpfen können und ihre Magen (nicht Ihre Magen ;-)) optimieren.

Der Weg zum eigenen KI-Server

KI-Server sind im Vergleich zum klassischen Server für (Daten und Webservices) eine etwas andere Liga. Diese Computer müssen KI-Modelle verarbeiten und berechnen, dass setzt dafür ausgerichtete Hardware voraus. Reine CPU Leistung spielt bei KI-Servern eine Nebenrolle und GPUs mit KI Recheneinheiten die Hauptrolle. Die Hardware sollte so ausgelegt sein, dass KI-Modelle so schnell wie möglich in den Speicher der GPUs geladen werden können und die GPUs ihre KI-Berechnung so schnell wie möglich abschließen. Die Herausforderung für unseren KI-Server besteht somit darin, GPUs mit ausreichend VRAM, einem schnellen Speichercontroller und genügend KI-Recheneinheiten zu finden.

Das für und Wider

Normale Consumer PC-Hardware hat hier einen entscheidenden Nachteil bezüglich der PCIe-Anbindung. Sie besitzen meist nur ausreichend PCIe-LANES für die Verwendung von einer Grafikkarte (x16). Es gibt aber auch Grafikkarten mit (x8 / halbe Übertragungsrate), dann könnten 2 GPU mit (x8/x8) und einem entsprechendem Mainboard-Chip genutzt werden mit dem Nachteil, dass die Datenbandbreite halbiert wird. In der Praxis würde man sich hier eher für einen Grafikkarte-Boliden (Nvidia 5090/4090/3090) zu sehr hohen Kosten in Anschaffung und Unterhalt (Stromverbrauch) entscheiden. Die Alternative ist, ein Server/Workstation-Mainboard und CPU (AMD Epic/Threadripper bzw. Intel Xeon) zu verwenden. Vorteil ist, dass hier viel mehr PCIe-LANES zur Verfügung stehen. Die Kosten für Mainboard und CPU sind hier zwar recht hoch, aber es können dadurch mehr als 1-2 GPUs ihren Weg in unseren KI-Server finden. Letztlich läuft alles auf einen Kompromiss zwischen den einzelnen Komponenten hinaus. Wir wollen einen KI-Server zu überschaubaren Kosten in Anschaffung und Unterhalt zusammenstellen mit dem sich auch speicherintensivere KI-Modelle rechnen lassen. Es geht also um, Kosten-/Nutzen Optimierung. Schauen wir uns verschiedene Szenarien konkret an. Fokus ist den Geldbeutel und laufenden Kosten zu schonen.

• Consumer-PC mit Rechenzentrum GPU

• Workstation/Server-PC mit mehreren einfachen GPU

Consumer-PC mit Rechenzentrum GPU

Wir prüfen die Leistung eines einfach Consumer-PC optimiert auf das Stromsparen mit Nvidia Tesla T4 (16GB VRAM) Karte. Folgende Hardware steht zur Verfügung:

• CPU: Intel Core 3 - 12100T

• Mainboard: Gigabyte H610M K

• RAM: 16GB DDR4 RAM

• GPU : Nvidia Tesla T4

• Software: Linux mit Ollama als Docker-Container

Das System verbraucht im Idle ca. 35 W Strom und unter KI Last ca. 105 W. Die T4 GPU hat den Vorteil, einen großen VRAM bei gleichzeitig geringem Strombedarf (max. 70W) zu haben. Die Kosten schwanken aktuell gebraucht bei ca. 500,- bis 700,- €. Zudem hat diese Karte einen ausreichend große Speicherbreite, sodass das Laden von KI-Modellen in akzeptabler Zeit geschieht.

Workstation/Server-PC mit mehreren einfachen GPU

Wir prüfen die Leistung einer einfachen Workstation Hardware mit moderatem Stromverbrauch und 2 Nvidia RTX 3060 (12GB). Folgende Hardware steht zur Verfügung:

• CPU: Intel Xeon E5-2630L-v4

• Mainboard: Asus W99-e WS

• RAM: 128GB DDR4 RAM

• GPU : Nvidia RTX 3060 (12GB)

• Software: Linux mit Ollama als Docker-Container

Das System verbraucht im Idle ca. 80 W Strom und unter KI Last ca. 380 W. Die RTX 3060 GPU hat den Vorteil, einen größeren VRAM bei gleichzeitig akzeptablen Stromverbrauch zu einem moderaten Preis zu haben. Die Kosten schwanken aktuell gebraucht bei ca. 200,- bis 300,- €. Zudem hat diese Karte eine bessere Speicherbreite, als sein "besseres" Nachfolge Modell die RTX 4060TI, sodass das Laden von KI-Modellen in akzeptabler Zeit geschieht.

Tests

Getestet werden beide Systeme mit verschieden LLM-Modellen auf Basis von Ollama. Aufgrund der VRAM Ausstattung lassen sich KI-Modelle bis 16 GB testen.

(LLM)	(VRAM Bedarf)
gpt-oss	13 GB
qwen3:14b	9.3 GB
phi4	9.1 GB
deepseek-r1:14b	9.0 GB
gemma3n	7.5 GB
mistral-nemo	7.1 GB
llama3.1	4.9 GB

Die Modelle werden alle mit dem selben Prompt "Schreibe mir eine spannende Geschichte.” verglichen, damit das KI-System auch etwas zu tun hat.

Test-Ergebnisse

Consumer-PC mit T4

(LLM)	(load duration in ms)	(eval rate in t/s)
gpt-oss	376.72	22.62
qwen3:14b	1,150.97	15.31
phi4	1,110.78	13.80
deepseek-r1:14b	1,112.49	14.12
gemma3n	623.57	33.16
mistral-nemo	903.32	23.48

Die Ergebnisse zeigen eine eindeutige Tendenz, die T4 Vorteile im Bereich des Ladens von Modellen. Die 2560 Cuda-Cores der Karte liefern eine moderate Leistung beim Verarbeiten der Modelle ab.

Workstation/Server-PC mit RTX 3060 (12GB)

(LLM)	(load duration in ms)	(eval count tokens)	(eval rate in t/s)
gpt-oss	803	1992	24.44
qwen3:14b	1,306	1378	31.58
phi4	1,242	1251	31.13
deepseek-r1:14b	1,285	1461	29.53
gemma3n	1,003	1077	44.79
mistral-nemo	1,048	521	38.69
llama3.1	204	1240	51.44

Bei der RTX 3060 (12GB) wird mehr Zeit beansprucht, die Modelle zu laden. Das liegt auch daran, dass das Workstation Mainboard PCIe 3.0 bereitstellt, die Karte jedoch PCIe 4.0 beherrscht. So sollten sich die Ladezeit mit einem PCIe 4.0 Mainboard etwas verkürzen. Die 3584 Cuda-Cores der Karte sorgen für eine besser Beschleunigung in der Verarbeitung von KI-Modellen.

Fazit

Für einen Low-Buget KI-Server bietet der Markt verschiedene Möglichkeiten im erschwinglichen Rahmen. In Deutschland kommen Überlegungen zu den laufenden Kosten hinzu. Im folgenden erhalten Sie ein Übersicht zu GPUs die als weitere Alternativen in die Überlegungen zu einem KI-Server einfließen können.

(GPU)	(Cuda Cores)	(Speicherbreite)	(VRAM)	(Hinweise)
RTX 3090	10.496	384 Bit	24 GB (GDDR6X)	ab 750 €, 350 Watt
RTX A4000	6.144	256 Bit	16 GB (GDDR6)	ab 750 €, 140 Watt
RTX A2000	3.328	192 Bit	12 GB (GDDR6)	ab 500 €, 70 Watt
RX 7900 XTX	(192 AI Accelerators)	384 Bit	24 GB (GDDR6)	ab 700 €, 355 Watt

Go Back