Makale Başlıkları
Ollama, büyük dil modellerini (LLM) kendi sunucunuzda yerel olarak indirip çalıştırmanızı sağlayan açık kaynaklı bir araçtır. ChatGPT benzeri yapay zekayı, verilerinizi hiçbir bulut servisine göndermeden, kendi donanımınızda çalıştırmanın en kolay yoludur. Arka planda yüksek verimli llama.cpp motorunu kullanır; modelleri tek komutla indirir, hem komut satırı hem de REST API (http://localhost:11434) sunar. Bu rehberde Ollama’nın kurulumunu, model seçimini ve donanım gereksinimlerini ayrıntılı anlatıyoruz.
LLM’ler belleğe ve işlem gücüne aç olduğundan, Ollama’yı ayrılmış kaynaklı bir VPS/sunucuda çalıştırmak en doğru yaklaşımdır.
Neden Kendi Sunucunuzda LLM Çalıştırmalısınız?
Bulut tabanlı yapay zeka API’leri pratiktir, ancak her sorgu için token başına ücret alır ve gönderdiğiniz tüm veriler üçüncü taraf sunuculardan geçer. Ollama ile bu denklemi tersine çevirirsiniz: model bir kez indirilir, sonrasında sınırsız ve ücretsiz sorgu yaparsınız; üstelik promptlarınız ve verileriniz sunucunuzdan asla çıkmaz. Bu, müşteri verisi işleyen, KVKK/GDPR yükümlülüğü olan veya gizliliği önemseyen projeler için belirleyici bir avantajdır.
Ollama Kurulumu (Tek Komut)
Linux sunucuya kurulum, resmi script ile tek satırdır:
curl -fsSL https://ollama.com/install.sh | sh
Kurulum bittiğinde Ollama bir systemd servisi olarak otomatik çalışır ve sunucu açılışında kendiliğinden başlar. Durumu kontrol etmek için:
systemctl status ollama
Model İndirme ve Çalıştırma
Bir modeli çalıştırmak (yerelde yoksa otomatik indirir) için ollama run komutu kullanılır. Güncel ve gerçek model adlarından bazıları:
ollama run llama3.2 # Meta Llama 3.2 (hafif 1B/3B varyantlar) ollama run mistral # Mistral 7B ollama run gemma3 # Google Gemma 3 ollama run qwen3 # Alibaba Qwen3 ollama run phi4 # Microsoft Phi-4 (akıl yürütme odaklı) # belirli boyut seçmek için :etiket kullanılır ollama run llama3.2:3b ollama run gemma3:27b
Komut çalıştığında interaktif bir sohbet başlar. Çıkmak için /bye yazın. Diğer faydalı yönetim komutları: ollama pull <model> (sadece indir), ollama list (indirilenleri göster), ollama ps (bellekte çalışanlar), ollama rm <model> (sil).
Hangi Modeli Seçmeli?
Model seçimi tamamen donanımınıza ve ihtiyacınıza bağlıdır. Genel sohbet ve günlük görevler için Llama 3.2 veya Mistral 7B mükemmel bir başlangıçtır; az kaynak ister ve hızlıdır. Matematik/kodlama ve akıl yürütme ağırlıklı işler için Phi-4 veya Qwen3 daha iyi sonuç verir. Daha büyük modeller (örneğin 27B-70B) kalite olarak öne çıkar ama ciddi RAM/VRAM gerektirir. Küçük başlayıp ihtiyaca göre büyütmek en mantıklı yoldur.
Sistem Gereksinimleri (RAM / VRAM)
Aşağıdaki değerler, Ollama’nın varsayılan 4-bit (Q4) kuantizasyonu içindir:
| Model boyutu | Gerekli RAM/VRAM |
|---|---|
| 7B / 8B | en az 8 GB |
| 13B / 14B | en az 16 GB |
| 33B–34B | ~32 GB |
| 70B | 64 GB+ (pratikte güçlü GPU) |
Önemli nokta: GPU şart değildir. Ollama CPU üzerinde de çalışır — daha yavaştır ama küçük modeller (7B/8B) makul bir hızla çalışabilir. NVIDIA (CUDA) veya AMD (ROCm) GPU varsa Ollama bunu otomatik kullanır ve token üretim hızını kat kat artırır. Mutlak minimum: 8 GB RAM, AVX2 destekli 64-bit CPU ve 10 GB boş disk. Kaba bir kural olarak, 4-bit modeller her milyar parametre için yaklaşık 0,6-0,7 GB bellek tüketir.
Open WebUI ile ChatGPT Benzeri Arayüz
Komut satırı yerine görsel bir arayüz isterseniz, Open WebUI’yi Docker ile kurabilirsiniz:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Ardından http://SUNUCU_IP:3000 adresinden, ChatGPT’ye benzer bir arayüzle kendi modelinizle sohbet edebilir, sohbet geçmişi tutabilir ve birden fazla kullanıcı tanımlayabilirsiniz. Open WebUI, Ollama’ya otomatik bağlanır.
Avantajlar ve Dezavantajlar
Kendi sunucunuzda LLM’in başlıca avantajları gizlilik (veri dışarı çıkmaz), maliyet (token ücreti yok) ve kontroldür (model sürümünü sabitler, internet kesintisinden etkilenmezsiniz). Dezavantaj tarafında ise iyi performans için güçlü ve pahalı donanım gerekebilir; ayrıca en üst düzey kapalı modellere (GPT-4 sınıfı) kıyasla açık modeller bazı görevlerde geride kalabilir. Çoğu pratik kullanım için 7B-14B modeller fazlasıyla yeterlidir.
Sıkça Sorulan Sorular
Ollama ücretsiz mi?
Evet, Ollama açık kaynaklı ve ücretsizdir; tek maliyet üzerinde çalıştığı sunucudur.
GPU olmadan çalışır mı?
Evet. Küçük modeller (7B/8B) CPU’da çalışır; GPU ise hızı önemli ölçüde artırır.
Hangi model benim için uygun?
8-16 GB RAM’li sunucuda 7B/8B veya 13B modeller idealdir; yüksek kalite için daha büyük modeller ve GPU gerekir.
Veriler dışarı gönderiliyor mu?
Hayır. Ollama tamamen yereldir; promptlarınız ve verileriniz sunucunuzda kalır.
API ile uygulamama bağlayabilir miyim?
Evet, http://localhost:11434 üzerinden REST API ile kendi uygulamalarınıza entegre edebilirsiniz.
Modeli nasıl güncellerim?
ollama pull <model> komutu en güncel sürümü indirir.
Yapay Zeka İçin Yüksek Bellekli Sunucu
Ollama ve yerel LLM’ler için ayrılmış RAM/CPU sunan güçlü VPS ve bulut sunucu çözümleri.





