Beratung, Vorträge und Workshops zu KI für den Mittelstand.

Ollama lokal einrichten

Ollama ist mittlerweile ein sehr beliebtes Tool um LLMs lokal auf dem eigenen Rechner auszuführen. Ein Alternative dazu währe zum Beispiel LM Studio oder llama.cpp. Ollama zeichnet sich dadurch aus, dass es sehr einfach zu installieren ist und in weiteren Tools wie zum Beispiel Openwebui, n8n, flowise, usw. sehr einfach als Backend integriert werden kann. Zudem stehen dem Nutzer eine Vielzahl verschiedener frei verfügbarer Chatmodelle zur Verfügung.

Unter dem Link https://ollama.com/download haben Sie die Möglichkeit Ollama für die Betriebssysteme Windows, MacOS und Linux herunter zu laden. Vorraussetzung für den Betrieb von Ollama ist eine Grafikkarte idealerweise von Nvidia mit mindestens 8GB VRAM, mittlerweile werden auch AMD Grafikkarten von Ollama unterstützt. Schwieriger ist es, wenn Sie eine Intel Grafikkarte in Ihrem Rechner verbaut haben oder eine CPU mit APU-Einheit aber auch hierfür gibt es Lösungen. Wichtig im Zusammenhang mit Grafikkarten ist der sogenannte VRAM (Grafikkarten Speicher). Dieser sollte möglichst groß sein, falls Sie die Absicht haben umfangreichere LLMs zu nutzen. Ich selbst nutze eine Karte mit 16 GB VRAM. Ollama an sich verwaltet für Sie die LLM Modelle, läd sie in den Speicher und regelt die Ein- und Ausgabe. Zudem wird eine Schnittstelle bereitgestellt um über andere Tools auf darauf zu zugreifen.

Mit dem folgenden Befehl installieren Sie Ollama auf einem Linuxsystem für MacOS und Windows stehen entsprechende Installationsprogramme zur Verfügung.

curl -fsSL https://ollama.com/install.sh | sh

Nach der Installation können Sie per Console Ollama ausführen. Ihnen stehen verschiedene Möglichkeiten zur Verfügung.

$ ollama
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  signin      Sign in to ollama.com
  signout     Sign out from ollama.com
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.
$

Mit ollama serve starten Sie den Ollama Server-Dienst und können standardmäßig über den Port 11434 local auf diesen zugreifen. Um Ollama im gesamten Netzwerk freizugeben, ist eine Anpassung in der /etc/systemd/system/ollama.service Datei vorzunehmen und die Zeile Environment="OLLAMA_HOST=0.0.0.0" unter Service zu ergänzen und den Ollama Dienst neu zu starten. Bitte hier unbedingt weitere Sicherheitsmaßnahmen treffen, um zu verhindern, dass Unberechtigte auf ihre Ollama API zugreifen können. Durch ollama list können Sie sich alle lokal installierten LLMs anzeigen lassen. Haben Sie Ollama gerade neu installiert wird Ausgabe leer sein.

$ ollama list
NAME                                        ID              SIZE      MODIFIED    
llama3.1:latest                             46e0c10c039e    4.9 GB    3 weeks ago    
mistral-nemo:latest                         e7e06d107c6c    7.1 GB    3 weeks ago    
gemma3n:latest                              15cb39fd9394    7.5 GB    3 weeks ago    
deepseek-r1:14b                             c333b7232bdb    9.0 GB    3 weeks ago    
phi4:latest                                 ac896e5b8b34    9.1 GB    3 weeks ago    
qwen3:14b                                   bdbd181c33f2    9.3 GB    3 weeks ago    
gpt-oss:latest                              aa4295ac10c3    13 GB     3 weeks ago    
dolphin3:latest                             d5ab9ae8e1f2    4.9 GB    3 weeks ago    
gemma3:latest                               a2af6cc3eb7f    3.3 GB    4 weeks ago 
$

Um ein LLM lokal auf ihren Rechner sich herunter zu laden nutzen Sie den Befehl ollama pull <modelname>.

$ ollama pull deepseek-r1:8b
pulling manifest 
pulling e6a7edc1a4d7: 100% ▕████████████████████████████████████████████████████████████████████████████████▏ 5.2 GB                         
pulling c5ad996bda6e: 100% ▕████████████████████████████████████████████████████████████████████████████████▏  556 B                         
pulling 6e4c38e1172f: 100% ▕████████████████████████████████████████████████████████████████████████████████▏ 1.1 KB                         
pulling ed8474dc73db: 100% ▕████████████████████████████████████████████████████████████████████████████████▏  179 B                         
pulling f64cd5418e4b: 100% ▕████████████████████████████████████████████████████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 
$

Der Start des Modells erfolgt über den Befehl ollama run <modelname> und kann anschließend als KI-Chat über Console verwendet werden.

$ ollama run deepseek-r1:8b
>>> Send a message (/? for help)

Mit /bye kann dieser Chat dann wieder beendet werden.

>>> /bye

Viel Spaß mit Ollama!

Go Back