Ollama Kurulumu: Kendi Sunucunuzda Yapay Zeka (LLM)

Makale Başlıkları

Ollama, büyük dil modellerini (LLM) kendi sunucunuzda yerel olarak indirip çalıştırmanızı sağlayan açık kaynaklı bir araçtır. ChatGPT benzeri yapay zekayı, verilerinizi hiçbir bulut servisine göndermeden, kendi donanımınızda çalıştırmanın en kolay yoludur. Arka planda yüksek verimli llama.cpp motorunu kullanır; modelleri tek komutla indirir, hem komut satırı hem de REST API (http://localhost:11434) sunar. Bu rehberde Ollama’nın kurulumunu, model seçimini ve donanım gereksinimlerini ayrıntılı anlatıyoruz.

LLM’ler belleğe ve işlem gücüne aç olduğundan, Ollama’yı ayrılmış kaynaklı bir VPS/sunucuda çalıştırmak en doğru yaklaşımdır.

Neden Kendi Sunucunuzda LLM Çalıştırmalısınız?

Bulut tabanlı yapay zeka API’leri pratiktir, ancak her sorgu için token başına ücret alır ve gönderdiğiniz tüm veriler üçüncü taraf sunuculardan geçer. Ollama ile bu denklemi tersine çevirirsiniz: model bir kez indirilir, sonrasında sınırsız ve ücretsiz sorgu yaparsınız; üstelik promptlarınız ve verileriniz sunucunuzdan asla çıkmaz. Bu, müşteri verisi işleyen, KVKK/GDPR yükümlülüğü olan veya gizliliği önemseyen projeler için belirleyici bir avantajdır.

Ollama Kurulumu (Tek Komut)

Linux sunucuya kurulum, resmi script ile tek satırdır:

curl -fsSL https://ollama.com/install.sh | sh

Kurulum bittiğinde Ollama bir systemd servisi olarak otomatik çalışır ve sunucu açılışında kendiliğinden başlar. Durumu kontrol etmek için:

systemctl status ollama

Model İndirme ve Çalıştırma

Bir modeli çalıştırmak (yerelde yoksa otomatik indirir) için ollama run komutu kullanılır. Güncel ve gerçek model adlarından bazıları:

ollama run llama3.2        # Meta Llama 3.2 (hafif 1B/3B varyantlar)
ollama run mistral         # Mistral 7B
ollama run gemma3          # Google Gemma 3
ollama run qwen3           # Alibaba Qwen3
ollama run phi4            # Microsoft Phi-4 (akıl yürütme odaklı)

# belirli boyut seçmek için :etiket kullanılır
ollama run llama3.2:3b
ollama run gemma3:27b

Komut çalıştığında interaktif bir sohbet başlar. Çıkmak için /bye yazın. Diğer faydalı yönetim komutları: ollama pull <model> (sadece indir), ollama list (indirilenleri göster), ollama ps (bellekte çalışanlar), ollama rm <model> (sil).

Hangi Modeli Seçmeli?

Model seçimi tamamen donanımınıza ve ihtiyacınıza bağlıdır. Genel sohbet ve günlük görevler için Llama 3.2 veya Mistral 7B mükemmel bir başlangıçtır; az kaynak ister ve hızlıdır. Matematik/kodlama ve akıl yürütme ağırlıklı işler için Phi-4 veya Qwen3 daha iyi sonuç verir. Daha büyük modeller (örneğin 27B-70B) kalite olarak öne çıkar ama ciddi RAM/VRAM gerektirir. Küçük başlayıp ihtiyaca göre büyütmek en mantıklı yoldur.

Sistem Gereksinimleri (RAM / VRAM)

Aşağıdaki değerler, Ollama’nın varsayılan 4-bit (Q4) kuantizasyonu içindir:

Model boyutu	Gerekli RAM/VRAM
7B / 8B	en az 8 GB
13B / 14B	en az 16 GB
33B–34B	~32 GB
70B	64 GB+ (pratikte güçlü GPU)

Önemli nokta: GPU şart değildir. Ollama CPU üzerinde de çalışır — daha yavaştır ama küçük modeller (7B/8B) makul bir hızla çalışabilir. NVIDIA (CUDA) veya AMD (ROCm) GPU varsa Ollama bunu otomatik kullanır ve token üretim hızını kat kat artırır. Mutlak minimum: 8 GB RAM, AVX2 destekli 64-bit CPU ve 10 GB boş disk. Kaba bir kural olarak, 4-bit modeller her milyar parametre için yaklaşık 0,6-0,7 GB bellek tüketir.

Open WebUI ile ChatGPT Benzeri Arayüz

Komut satırı yerine görsel bir arayüz isterseniz, Open WebUI’yi Docker ile kurabilirsiniz:

docker run -d -p 3000:8080 
 --add-host=host.docker.internal:host-gateway 
 -v open-webui:/app/backend/data 
 --name open-webui --restart always 
 ghcr.io/open-webui/open-webui:main

Ardından http://SUNUCU_IP:3000 adresinden, ChatGPT’ye benzer bir arayüzle kendi modelinizle sohbet edebilir, sohbet geçmişi tutabilir ve birden fazla kullanıcı tanımlayabilirsiniz. Open WebUI, Ollama’ya otomatik bağlanır.

Avantajlar ve Dezavantajlar

Kendi sunucunuzda LLM’in başlıca avantajları gizlilik (veri dışarı çıkmaz), maliyet (token ücreti yok) ve kontroldür (model sürümünü sabitler, internet kesintisinden etkilenmezsiniz). Dezavantaj tarafında ise iyi performans için güçlü ve pahalı donanım gerekebilir; ayrıca en üst düzey kapalı modellere (GPT-4 sınıfı) kıyasla açık modeller bazı görevlerde geride kalabilir. Çoğu pratik kullanım için 7B-14B modeller fazlasıyla yeterlidir.