Lokaler KI Server fürs Unternehmen
Hintergrund
Wer seine Daten freiwillig hergibt, dem ist nicht mehr zu helfen. Gerade mittelständische Unternehmen mit weniger Erfahrung im IT-Bereich sind aktuell sehr gefährdet, KI-Systemen unfreiwillig ihrer Geheimnisse anzuvertrauen. Da gibt es den Mitarbeiter der sich von KI die Kostenanalyse eines Projekts analysieren lässt, oder die PA welche sich per KI das Protokoll von Ihren Mitschriften der letzten Vorstandssitzung ins reine schreiben lässt oder den Marketing Mitarbeiter der sich mit den Kundendaten seine neue Marketing-Strategie entwickeln lässt. Sie glauben nicht, dass dies sein kein? Doch, gehen Sie davon aus, dass jeder der mit KI arbeitet irgend wann brisante Informationen damit (un)freiwillig verarbeitet. Wir leben im Informationszeitalter, das heißt, dass derjenige der als erster auf Informationen Zugriff hat gleichzeitig den unfairen Vorteil nutzen kann. Fragen Sie sich welche Vorteile bieten die überall verfügbaren KI-Cloud-Anwendungen für den Betreiber? Lesen Sie doch "wirklich" mal die Nutzungsbedingungen bekannter Anbieter durch. Es hilft nicht sich darüber zu beschweren, sondern nach Möglichen zu suchen, damit ihre Informationen durch KI-Einsatz nicht Fremdgehen.
Was ist das Ziel?
Grundsätzlich können Sie aktuell KI-System in zweierlei Art und Weise nutzen, erstens als Anwendung in der Cloud und zweitens als Anwendung auf Inhouse-Servern. Das Sie bei Cloud-Anwendungen immer dem Anbieter vertrauen müssen, muss ich Ihnen nicht erklären. Auch aus Sicht der IT-Sicherheit handelt es sich um ein zentrales System mit besonderen Risiken bezüglich dem Zugriff Dritter. Ich möchte Ihnen nun zeigen, wie mittelständische Unternehmen die Risiken von Cloud-KI-Systemen umgehen können, in dem Sie lokale KI-Server und Anwendung nutzen. Um es gleich vorweg zu nehmen, auch lokale KI-Systeme haben Risiken, die Sie kennen und verstehen sollten. Zudem entstehen für Sie Investitionskosten bzgl. Hardware und laufende Kosten in Puncto Wartung, Absicherung, Energie und Support. Wir werden das Thema so praktisch wie möglich angehen und die Hardware mit Standard Software testen.
Können KMU von einem lokalen KI-Server profitieren?
Unbedingt und irgendwann wird es keine andere Möglichkeit geben, um nicht im globalen Wettbewerb unter die Räder zu kommen. Lokale KI-Server verhindern das Erspähen von Daten durch die IT-Giganten, zudem wird dadurch langfristig eine eigen KI-Kompetenz im Unternehmen aufgebaut und Mittelfristig können so Kosten reduziert werden. Letztlich geht es um die Reduktion von Abhängigkeiten die dafür sorgt, dass KMU trotz zunehmender Digitalisierung handlungsfähig bleiben. Je mehr Produktionsschritte Sie nicht kontrollieren, um so mehr Risiken gehen Sie letztlich ein. Digitalisierung sorgt immer für eine Konzentration auf wenige Anbieter, die den Markt zunehmend für sich abschöpfen können und ihre Magen (nicht Ihre Magen ;-)) optimieren.
Der Weg zum eigenen KI-Server
KI-Server sind im Vergleich zum klassischen Server für (Daten und Webservices) eine etwas andere Liga. Diese Computer müssen KI-Modelle verarbeiten und berechnen, dass setzt dafür ausgerichtete Hardware voraus. Reine CPU Leistung spielt bei KI-Servern eine Nebenrolle und GPUs mit KI Recheneinheiten die Hauptrolle. Die Hardware sollte so ausgelegt sein, dass KI-Modelle so schnell wie möglich in den Speicher der GPUs geladen werden können und die GPUs ihre KI-Berechnung so schnell wie möglich abschließen. Die Herausforderung für unseren KI-Server besteht somit darin, GPUs mit ausreichend VRAM, einem schnellen Speichercontroller und genügend KI-Recheneinheiten zu finden.
Das für und Wider
Normale Consumer PC-Hardware hat hier einen entscheidenden Nachteil bezüglich der PCIe-Anbindung. Sie besitzen meist nur ausreichend PCIe-LANES für die Verwendung von einer Grafikkarte (x16). Es gibt aber auch Grafikkarten mit (x8 / halbe Übertragungsrate), dann könnten 2 GPU mit (x8/x8) und einem entsprechendem Mainboard-Chip genutzt werden mit dem Nachteil, dass die Datenbandbreite halbiert wird. In der Praxis würde man sich hier eher für einen Grafikkarte-Boliden (Nvidia 5090/4090/3090) zu sehr hohen Kosten in Anschaffung und Unterhalt (Stromverbrauch) entscheiden. Die Alternative ist, ein Server/Workstation-Mainboard und CPU (AMD Epic/Threadripper bzw. Intel Xeon) zu verwenden. Vorteil ist, dass hier viel mehr PCIe-LANES zur Verfügung stehen. Die Kosten für Mainboard und CPU sind hier zwar recht hoch, aber es können dadurch mehr als 1-2 GPUs ihren Weg in unseren KI-Server finden. Letztlich läuft alles auf einen Kompromiss zwischen den einzelnen Komponenten hinaus. Wir wollen einen KI-Server zu überschaubaren Kosten in Anschaffung und Unterhalt zusammenstellen mit dem sich auch speicherintensivere KI-Modelle rechnen lassen. Es geht also um, Kosten-/Nutzen Optimierung. Schauen wir uns verschiedene Szenarien konkret an. Fokus ist den Geldbeutel und laufenden Kosten zu schonen.
• Consumer-PC mit Rechenzentrum GPU
• Workstation/Server-PC mit mehreren einfachen GPU
Consumer-PC mit Rechenzentrum GPU
Wir prüfen die Leistung eines einfach Consumer-PC optimiert auf das Stromsparen mit Nvidia Tesla T4 (16GB VRAM) Karte. Folgende Hardware steht zur Verfügung:
• CPU: Intel Core 3 - 12100T
• Mainboard: Gigabyte H610M K
• RAM: 16GB DDR4 RAM
• GPU : Nvidia Tesla T4
• Software: Linux mit Ollama als Docker-Container
Das System verbraucht im Idle ca. 35 W Strom und unter KI Last ca. 105 W. Die T4 GPU hat den Vorteil, einen großen VRAM bei gleichzeitig geringem Strombedarf (max. 70W) zu haben. Die Kosten schwanken aktuell gebraucht bei ca. 500,- bis 700,- €. Zudem hat diese Karte einen ausreichend große Speicherbreite, sodass das Laden von KI-Modellen in akzeptabler Zeit geschieht.
Workstation/Server-PC mit mehreren einfachen GPU
Wir prüfen die Leistung einer einfachen Workstation Hardware mit moderatem Stromverbrauch und 2 Nvidia RTX 3060 (12GB). Folgende Hardware steht zur Verfügung:
• CPU: Intel Xeon E5-2630L-v4
• Mainboard: Asus W99-e WS
• RAM: 128GB DDR4 RAM
• GPU : Nvidia RTX 3060 (12GB)
• Software: Linux mit Ollama als Docker-Container
Das System verbraucht im Idle ca. 80 W Strom und unter KI Last ca. 380 W. Die RTX 3060 GPU hat den Vorteil, einen größeren VRAM bei gleichzeitig akzeptablen Stromverbrauch zu einem moderaten Preis zu haben. Die Kosten schwanken aktuell gebraucht bei ca. 200,- bis 300,- €. Zudem hat diese Karte eine bessere Speicherbreite, als sein "besseres" Nachfolge Modell die RTX 4060TI, sodass das Laden von KI-Modellen in akzeptabler Zeit geschieht.
Tests
Getestet werden beide Systeme mit verschieden LLM-Modellen auf Basis von Ollama. Aufgrund der VRAM Ausstattung lassen sich KI-Modelle bis 16 GB testen.
(LLM) | (VRAM Bedarf) |
gpt-oss | 13 GB |
qwen3:14b | 9.3 GB |
phi4 | 9.1 GB |
deepseek-r1:14b | 9.0 GB |
gemma3n | 7.5 GB |
mistral-nemo | 7.1 GB |
llama3.1 | 4.9 GB |
Die Modelle werden alle mit dem selben Prompt "Schreibe mir eine spannende Geschichte.” verglichen, damit das KI-System auch etwas zu tun hat.
Test-Ergebnisse
Consumer-PC mit T4
(LLM) | (load duration in ms) | (eval rate in t/s) |
gpt-oss | 376.72 | 22.62 |
qwen3:14b | 1,150.97 | 15.31 |
phi4 | 1,110.78 | 13.80 |
deepseek-r1:14b | 1,112.49 | 14.12 |
gemma3n | 623.57 | 33.16 |
mistral-nemo | 903.32 | 23.48 |
Die Ergebnisse zeigen eine eindeutige Tendenz, die T4 Vorteile im Bereich des Ladens von Modellen. Die 2560 Cuda-Cores der Karte liefern eine moderate Leistung beim Verarbeiten der Modelle ab.
Workstation/Server-PC mit RTX 3060 (12GB)
(LLM) | (load duration in ms) | (eval count tokens) | (eval rate in t/s) |
gpt-oss | 803 | 1992 | 24.44 |
qwen3:14b | 1,306 | 1378 | 31.58 |
phi4 | 1,242 | 1251 | 31.13 |
deepseek-r1:14b | 1,285 | 1461 | 29.53 |
gemma3n | 1,003 | 1077 | 44.79 |
mistral-nemo | 1,048 | 521 | 38.69 |
llama3.1 | 204 | 1240 | 51.44 |
Bei der RTX 3060 (12GB) wird mehr Zeit beansprucht, die Modelle zu laden. Das liegt auch daran, dass das Workstation Mainboard PCIe 3.0 bereitstellt, die Karte jedoch PCIe 4.0 beherrscht. So sollten sich die Ladezeit mit einem PCIe 4.0 Mainboard etwas verkürzen. Die 3584 Cuda-Cores der Karte sorgen für eine besser Beschleunigung in der Verarbeitung von KI-Modellen.
Fazit
Für einen Low-Buget KI-Server bietet der Markt verschiedene Möglichkeiten im erschwinglichen Rahmen. In Deutschland kommen Überlegungen zu den laufenden Kosten hinzu. Im folgenden erhalten Sie ein Übersicht zu GPUs die als weitere Alternativen in die Überlegungen zu einem KI-Server einfließen können.
(GPU) | (Cuda Cores) | (Speicherbreite) | (VRAM) | (Hinweise) |
RTX 3090 | 10.496 | 384 Bit | 24 GB (GDDR6X) | ab 750 €, 350 Watt |
RTX A4000 | 6.144 | 256 Bit | 16 GB (GDDR6) | ab 750 €, 140 Watt |
RTX A2000 | 3.328 | 192 Bit | 12 GB (GDDR6) | ab 500 €, 70 Watt |
RX 7900 XTX | (192 AI Accelerators) | 384 Bit | 24 GB (GDDR6) | ab 700 €, 355 Watt |