Ollama Nedir, Nasıl Kurulur? Kendi Sunucunuzda LLM

Ollama Nedir, Nasıl Kurulur? Kendi Sunucunuzda LLM

Ollama, büyük dil modellerini (LLM) kendi sunucunuzda yerel olarak indirip çalıştırmanızı sağlayan açık kaynaklı bir araçtır. ChatGPT benzeri yapay zekayı, verilerinizi hiçbir bulut servisine göndermeden, kendi donanımınızda çalıştırmanın en kolay yoludur. Arka planda yüksek verimli llama.cpp motorunu kullanır; modelleri tek komutla indirir, hem komut satırı hem de REST API (http://localhost:11434) sunar. Bu rehberde Ollama’nın kurulumunu, model seçimini ve donanım gereksinimlerini ayrıntılı anlatıyoruz.

LLM’ler belleğe ve işlem gücüne aç olduğundan, Ollama’yı ayrılmış kaynaklı bir VPS/sunucuda çalıştırmak en doğru yaklaşımdır.

Neden Kendi Sunucunuzda LLM Çalıştırmalısınız?

Bulut tabanlı yapay zeka API’leri pratiktir, ancak her sorgu için token başına ücret alır ve gönderdiğiniz tüm veriler üçüncü taraf sunuculardan geçer. Ollama ile bu denklemi tersine çevirirsiniz: model bir kez indirilir, sonrasında sınırsız ve ücretsiz sorgu yaparsınız; üstelik promptlarınız ve verileriniz sunucunuzdan asla çıkmaz. Bu, müşteri verisi işleyen, KVKK/GDPR yükümlülüğü olan veya gizliliği önemseyen projeler için belirleyici bir avantajdır.

Ollama Kurulumu (Tek Komut)

Linux sunucuya kurulum, resmi script ile tek satırdır:

curl -fsSL https://ollama.com/install.sh | sh

Kurulum bittiğinde Ollama bir systemd servisi olarak otomatik çalışır ve sunucu açılışında kendiliğinden başlar. Durumu kontrol etmek için:

systemctl status ollama

Model İndirme ve Çalıştırma

Bir modeli çalıştırmak (yerelde yoksa otomatik indirir) için ollama run komutu kullanılır. Güncel ve gerçek model adlarından bazıları:

Mail hosting 1 ay ücretsiz
ollama run llama3.2        # Meta Llama 3.2 (hafif 1B/3B varyantlar)
ollama run mistral         # Mistral 7B
ollama run gemma3          # Google Gemma 3
ollama run qwen3           # Alibaba Qwen3
ollama run phi4            # Microsoft Phi-4 (akıl yürütme odaklı)

# belirli boyut seçmek için :etiket kullanılır
ollama run llama3.2:3b
ollama run gemma3:27b

Komut çalıştığında interaktif bir sohbet başlar. Çıkmak için /bye yazın. Diğer faydalı yönetim komutları: ollama pull <model> (sadece indir), ollama list (indirilenleri göster), ollama ps (bellekte çalışanlar), ollama rm <model> (sil).

Hangi Modeli Seçmeli?

Model seçimi tamamen donanımınıza ve ihtiyacınıza bağlıdır. Genel sohbet ve günlük görevler için Llama 3.2 veya Mistral 7B mükemmel bir başlangıçtır; az kaynak ister ve hızlıdır. Matematik/kodlama ve akıl yürütme ağırlıklı işler için Phi-4 veya Qwen3 daha iyi sonuç verir. Daha büyük modeller (örneğin 27B-70B) kalite olarak öne çıkar ama ciddi RAM/VRAM gerektirir. Küçük başlayıp ihtiyaca göre büyütmek en mantıklı yoldur.

Sistem Gereksinimleri (RAM / VRAM)

Aşağıdaki değerler, Ollama’nın varsayılan 4-bit (Q4) kuantizasyonu içindir:

Model boyutu Gerekli RAM/VRAM
7B / 8B en az 8 GB
13B / 14B en az 16 GB
33B–34B ~32 GB
70B 64 GB+ (pratikte güçlü GPU)

Önemli nokta: GPU şart değildir. Ollama CPU üzerinde de çalışır — daha yavaştır ama küçük modeller (7B/8B) makul bir hızla çalışabilir. NVIDIA (CUDA) veya AMD (ROCm) GPU varsa Ollama bunu otomatik kullanır ve token üretim hızını kat kat artırır. Mutlak minimum: 8 GB RAM, AVX2 destekli 64-bit CPU ve 10 GB boş disk. Kaba bir kural olarak, 4-bit modeller her milyar parametre için yaklaşık 0,6-0,7 GB bellek tüketir.

Open WebUI ile ChatGPT Benzeri Arayüz

Komut satırı yerine görsel bir arayüz isterseniz, Open WebUI’yi Docker ile kurabilirsiniz:

docker run -d -p 3000:8080 
 --add-host=host.docker.internal:host-gateway 
 -v open-webui:/app/backend/data 
 --name open-webui --restart always 
 ghcr.io/open-webui/open-webui:main

Ardından http://SUNUCU_IP:3000 adresinden, ChatGPT’ye benzer bir arayüzle kendi modelinizle sohbet edebilir, sohbet geçmişi tutabilir ve birden fazla kullanıcı tanımlayabilirsiniz. Open WebUI, Ollama’ya otomatik bağlanır.

Avantajlar ve Dezavantajlar

Kendi sunucunuzda LLM’in başlıca avantajları gizlilik (veri dışarı çıkmaz), maliyet (token ücreti yok) ve kontroldür (model sürümünü sabitler, internet kesintisinden etkilenmezsiniz). Dezavantaj tarafında ise iyi performans için güçlü ve pahalı donanım gerekebilir; ayrıca en üst düzey kapalı modellere (GPT-4 sınıfı) kıyasla açık modeller bazı görevlerde geride kalabilir. Çoğu pratik kullanım için 7B-14B modeller fazlasıyla yeterlidir.

Sıkça Sorulan Sorular

Ollama ücretsiz mi?

Evet, Ollama açık kaynaklı ve ücretsizdir; tek maliyet üzerinde çalıştığı sunucudur.

GPU olmadan çalışır mı?

Evet. Küçük modeller (7B/8B) CPU’da çalışır; GPU ise hızı önemli ölçüde artırır.

Hangi model benim için uygun?

8-16 GB RAM’li sunucuda 7B/8B veya 13B modeller idealdir; yüksek kalite için daha büyük modeller ve GPU gerekir.

Veriler dışarı gönderiliyor mu?

Hayır. Ollama tamamen yereldir; promptlarınız ve verileriniz sunucunuzda kalır.

API ile uygulamama bağlayabilir miyim?

Evet, http://localhost:11434 üzerinden REST API ile kendi uygulamalarınıza entegre edebilirsiniz.

Modeli nasıl güncellerim?

ollama pull <model> komutu en güncel sürümü indirir.

Yapay Zeka İçin Yüksek Bellekli Sunucu

Ollama ve yerel LLM’ler için ayrılmış RAM/CPU sunan güçlü VPS ve bulut sunucu çözümleri.

Sunucu Çözümleri →

Türkiye'nin En Çok Tavsiye Edilen Domain, Hosting ve Bulut Servis Sağlayıcısı
İnternet sitesi Alastyr İnternet Sitesi
Yazı oluşturuldu 477

Benzer yazılar

Aramak istediğinizi üstte yazmaya başlayın ve aramak için enter tuşuna basın. İptal için ESC tuşuna basın.

Üste dön