AI/LLM Sözlüğü: Her Geliştiricinin Bilmesi Gereken 82 Terim
AI/LLM alanında pratik, implementation odaklı bir sözlük. Token'lardan agent'lara, RAG'dan fine-tuning'e, kod örnekleri ve dürüst değerlendirmelerle.
AI terminolojisi çoğu dokümantasyonun takip edemeyeceği kadar hızlı gelişiyor. Her hafta yeni terimler ortaya çıkıyor - RAG, RLHF, LoRA, MCP, GGUF - ve genellikle farklı kaynaklar arasında tutarsız tanımlarla. Bu gerçek bir problem yaratır: vendor materyalleri kavramları karıştırıyor ve bir terimin kavramsal anlamını bilmek, onu pratik olarak nasıl kullanacağını bilmekten önemli ölçüde farklı.
Bu sözlük bu boşluğu kapatıyor. Sadece tanımlar değil - LLM destekli sistemler geliştirmekten gelen implementation bağlamı, yaygın yanlış anlamalar ve pratik rehberlik. Bir PM "knowledge base'imizi embed etmekten" bahsettiğinde veya temperature 0'ın neden hallucination'ları engellemediğini açıklaman gerektiğinde referansın olarak düşün.
Navigasyon
- Temel Kavramlar - LLM, token, context window, temperature
- Model Tipleri - Base vs instruct, multimodal, reasoning modeller
- RAG ve Retrieval - Vector database'ler, chunking, hybrid search
- Fine-tuning ve Training - LoRA, RLHF, quantization
- Model Formatlari ve Lokal Inference - GGUF, Ollama, vLLM
- Agent'lar ve Orkestrasyon - Tool use, MCP, multi-agent sistemler
- Prompt Engineering - Few-shot, template'ler, caching
- Production ve Operasyonlar - Guardrail'lar, rate limiting, streaming
- Maliyet ve Metrikler - Token fiyatlandırması, batch indirimler
- Güvenlik ve Uyumluluk - PII handling, red teaming
- Değerlendirme ve Metrikler - Benchmark'lar, human evaluation
- Extended Thinking - Reasoning modeller ve thinking token'lar
Temel Kavramlar
LLM (Large Language Model)
Tanım: Büyük metin veri setlerinde eğitilmiş, bir dizideki bir sonraki token'ı tahmin etmek için tasarlanmış sinir ağı. "Büyük" parametre sayısına (milyarlardan trilyonlara) ve eğitim verisi ölçeğine işaret eder.
Implementation Gerçeği: LLM'ler istatistiksel pattern matcher'lardır, reasoning engine'leri değil. Muhtemel metin devamlarını üretirler, bu bazen reasoning gibi görünür ama deterministik mantık değildir.
Ne Zaman Kullan: Metin üretimi, özetleme, kod asistanı, konuşmalı arayüzler.
Ne Zaman KULLANMA: Hassas hesaplamalar, gerçek zamanlı veri arama, deterministik iş akışları.
Foundation Model
Tanım: Geniş veri üzerinde ön-eğitilmiş, downstream görevler için başlangıç noktası olarak hizmet eden büyük model. GPT-4, Claude, Llama ve Gemini foundation model'lerdir.
Anahtar Ayrımı: Foundation model'ler genel amaçlıdır; fine-tuned model'ler özelleştirilmiştir. Genellikle foundation model'leri kendin eğitmezsin - API üzerinden kullanır veya fine-tuning ile adapte edersin.
Pratik Ders: Foundation model'ler üzerine inşa etmek neredeyse her zaman sıfırdan eğitmekten daha maliyet etkilidir. Özel eğitimli bir model milyonlarca dolar compute gerektirir; fine-tuning yüzlerden binlere malolur.
Token / Tokenization
Tanım: LLM'lerin işlediği temel metin birimi. Tokenization metni subword parçalarına böler (mutlaka tam kelimeler değil). "tokenization" tokenizer'a bağlı olarak ["token", "ization"] veya ["tok", "en", "ization"] olabilir.
Implementation Gerçeği: Token sayıları doğrudan maliyet ve context limitlerini etkiler. Kaba bir kural: 1 token yaklaşık 4 karakter veya İngilizce'de 0.75 kelimedir.
Maliyet Etkisi: 0.03 maliyetinde. Bunu günlük binlerce istekle çarp ve token'lar önemli bir kalem haline gelir.
Yaygın Tuzak: İngilizce olmayan metin ve kod genellikle verimsiz tokenize edilir. Japonca metin eşdeğer İngilizce'nin 2-3 katı token olabilir.
Context Window
Tanım: Bir LLM'in tek bir istekte işleyebildiği maksimum token sayısı (input + output birlikte). Modelin "çalışma belleği" olarak düşün.
2025 Context Window'ları:
Implementation Gerçeği: Büyük context window'lar tüm o içerik üzerinde iyi performans garanti etmez. Modeller "samanlıkta iğne" görevlerinde zorlanır - uzun context'lerde gömülü belirli bilgileri bulmak.
Pratik Ders: 200K token sığar diye her şeyi koymalısın anlamına gelmez. Retrieval (RAG) genellikle her şeyi context'e tıkmaktan daha iyi performans gösterir.
Temperature / Top-P
Tanım: Output rastgeleliğini kontrol eden sampling parametreleri. Temperature olasılık dağılımını ölçekler; Top-P (nucleus sampling) hangi token'ların dikkate alınacağını sınırlar.
-
Temperature 0: Neredeyse deterministik (aynı input genellikle aynı output'u üretir)
-
Temperature 0.7: Dengeli yaratıcılık ve tutarlılık
-
Temperature 1.0+: Daha rastgele, yaratıcı, ama potansiyel olarak tutarsız
-
Top-P 0.1: Sadece top %10 olasılık kütlesini oluşturan token'ları dikkate al
-
Top-P 1.0: Tüm token'ları dikkate al (filtreleme yok)
Yaygın Yanlış Anlama: Temperature 0 hallucination'ları ortadan kaldırmaz. Hallucination'ları daha tutarlı yapar, daha az olası değil.
Pratik Rehberlik:
- Kod üretimi: temperature 0-0.3
- Olgusal S&C: temperature 0.3-0.5
- Yaratıcı yazım: temperature 0.7-1.0
- Hem temperature hem top_p'yi agresif şekilde birlikte kullanmaktan kaçın
Prompt / System Prompt
Tanım: LLM'i yönlendiren metin girdisi. System prompt'lar kalıcı bağlam ve davranış belirler; user prompt'lar gerçek isteklerdir.
Implementation Gerçeği: System prompt'lar kusursuz değildir. Kararlı kullanıcılar prompt injection ile bunları geçersiz kılabilir. Güvenlik için sadece system prompt'lara güvenme.
Pratik Ders: Açık, spesifik system prompt'lar output kalitesini önemli ölçüde artırır. "Yardımcı bir asistan ol" detaylı rol tanımları ve örneklerden daha kötü sonuçlar üretir.
Completion
Tanım: Bir LLM'in prompt'a yanıt olarak ürettiği metin. Ayrıca eski API paradigmasına (completion endpoint'leri) vs yeni chat paradigmasına (chat completion endpoint'leri) işaret eder.
Tarihsel Bağlam: Erken API'ler "completion" endpoint'leri kullanıyordu, burada bir metin ön eki sağlar ve model devam ettirirdi. Modern API'ler yapılandırılmış mesaj dizileriyle "chat completion" kullanır.
Öneri: Yeni projeler için her zaman chat completion endpoint'lerini kullan. Konuşma bağlamını daha iyi handle eder ve instruction-tuned model'lerle çalışır.
Inference
Tanım: Tahmin/output üretmek için eğitilmiş bir modeli çalıştırma süreci. Training'den (model ağırlıklarını güncelleme) farklı.
Implementation Gerçeği: Inference, API çağrılarıyla ödediğin şeydir. Lokal inference modelleri kendi donanımında çalıştırmak demektir.
Maliyet Denklemi: Inference Maliyeti = (Input Token'lar + Output Token'lar) x Token Başına Fiyat
Latency Bileşenleri:
- TTFT (Time to First Token): Prompt işleme süresi
- TPS (Tokens per Second): Üretim hızı
- Toplam Latency: TTFT + (Output Token'lar / TPS)
Hallucination
Tanım: Bir LLM'in güvenilir görünen ama aslında yanlış veya uydurma bilgi üretmesi. Model belirsizliği kabul etmek yerine "bir şeyler uydurur".
Neden Olur: LLM'ler muhtemel token dizilerini tahmin eder, gerçeği değil. İçerik yanlış olsa bile doğru görünen pattern'leri öğrendiler.
Pratik Ders: Hallucination'lar tamamen ortadan kaldırılamaz. Körü körüne güvenmek yerine LLM output'larını doğrulayan sistemler kur. Kaynak atıflı RAG kullanıcıların doğruluğu değerlendirmesine yardımcı olur.
Grounding
Tanım: LLM output'larını doğrulanmış bilgi kaynaklarına (dokümanlar, veritabanları, API'ler) bağlamak, hallucination'ları azaltmak ve doğruluğu artırmak için.
Implementation Yaklaşımları:
- RAG (Retrieval-Augmented Generation): Üretimden önce ilgili dokümanları getir
- Tool Use: Modelin gerçek zamanlı veri için API'leri çağırmasına izin ver
- Constrained Generation: Output'ları önceden tanımlanmış seçeneklerle sınırla
Anahtar İçerik: Grounding yanıt esnekliğini doğruluk için takas eder. Ground edilmiş bir sistem veri kaynakları dışındaki soruları cevaplamayacaktır.
Model Tipleri
Base vs Instruct Model
Tanım: Base model'ler sadece bir sonraki token tahmini için eğitilir; instruct model'ler talimat takip etmek ve yardımcı yanıtlar üretmek için ek olarak eğitilir.
- Base Model: Ham metin üzerinde eğitilir, devamlar tahmin eder
- Instruct Model: Talimat-yanıt çiftleri (SFT) ve insan geribildirimi (RLHF) ile fine-tune edilir
Pratik Fark:
Base Model'leri Ne Zaman Kullan: Özelleştirilmiş görevler için fine-tuning, araştırma, veya modelin metni doğal olarak devam ettirmesi gerektiğinde.
Instruct Model'leri Ne Zaman Kullan: Production uygulamaları, chatbot'lar, kod asistanları - talimat takip gerektiren herhangi bir görev.
Chat vs Completion Model
Tanım: Completion model'ler bir prompt'tan metin devamı üretir; chat model'ler çok turlu konuşma etkileşimleri için optimize edilmiştir.
Teknik Fark: Chat model'ler rollerle (system, user, assistant) mesaj dizileri kullanır; completion model'ler ham metin string'leri alır.
Öneri: Neredeyse tüm uygulamalar için chat model'leri kullan. Completion model'ler büyük ölçüde deprecated.
Multimodal Model
Tanım: Tek bir model mimarisinde birden fazla input tipini - metin, görüntü, ses, video - işleyen model'ler.
Örnekler: GPT-4o (metin + görüntü + ses), Claude Sonnet 4.6 (metin + görüntü), Gemini 2.5 (metin + görüntü + video + ses)
Kullanım Alanları: Grafik içeren doküman analizi, kod screenshot debug'i, video içerik anlama, erişilebilirlik özellikleri.
Sınırlılık: Multimodal işleme daha pahalı (görüntüler 100-1000+ token olabilir) ve sadece metinden daha yavaş.
Reasoning Model (o1/o3)
Tanım: Karmaşık reasoning görevleri için özellikle tasarlanmış, cevap üretmeden önce "adım adım düşünmek" için eğitilmiş model'ler. OpenAI'nin o1 ve o3 serileri birincil örneklerdir.
Nasıl Farklı: Reasoning model'ler "extended thinking" kullanır - son cevaptan önce dahili reasoning token'ları üretir. Bu matematik, mantık ve çok adımlı problemlerde performansı artırır.
Trade-off'lar:
- Standart model'lerden çok daha yavaş (karmaşık problemler için saniyelerden dakikalara)
- Daha yüksek maliyet (thinking token'lar faturalanır)
- Basit sorgular için aşırı
- Kodlama, matematik, bilimsel reasoning için mükemmel
Ne Zaman Kullan: Karmaşık matematik problemleri, formal mantık, derin analiz gerektiren kod debug'i, bilimsel reasoning.
Ne Zaman KULLANMA: Basit S&C, chat, içerik üretimi - standart model'ler daha hızlı ve ucuz.
Embedding Model
Tanım: Metni (veya görüntüler vs.) semantik anlamı yakalayan yoğun numerik vektörlere (embedding'ler) dönüştüren model'ler. Benzer metinler benzer vektörlere sahiptir.
Amaç: Semantik arama, kümeleme, sınıflandırma ve RAG sistemlerine girdi olarak enable et.
Popüler Embedding Model'leri (2025):
Maliyet Karşılaştırması: Embedding model'leri üretim model'lerinden çok daha ucuz - genellikle milyon token başına $0.02-0.13.
Small Language Model (SLM)
Tanım: Verimlilik, cihaz üzerinde deployment ve belirli kullanım alanları için optimize edilmiş, daha az parametreli (genellikle 1B-13B) dil model'leri.
Örnekler:
- Phi-4-mini (3.8B): Boyutuna göre güçlü reasoning
- Gemma 3 (1B-27B): Multimodal yetenekli
- Llama 3.2 (1B, 3B): Mobil-optimize
- Qwen2.5 (0.5B-7B): Verimli talimat takibi
Avantajlar:
- Tüketici donanımında çalıştırma (laptoplar, telefonlar)
- Daha düşük latency ve maliyet
- Gizlilik (veri cihazdan çıkmaz)
- Daha düşük enerji tüketimi
Ne Zaman Kullan: Cihaz üzerinde uygulamalar, gizlilik-hassas kullanım alanları, yüksek hacimli düşük karmaşıklıklı görevler, maliyet-kısıtlı senaryolar.
Ne Zaman KULLANMA: Karmaşık reasoning, geniş bilgi gerektiren görevler, kalite en önemli olduğunda.
RAG ve Retrieval
RAG (Retrieval-Augmented Generation)
Tanım: Üretimden önce bilgi tabanından ilgili dokümanları getirerek LLM yanıtlarını geliştiren bir pattern. Getirilen bağlam yanıtı belirli veride "ground" eder.
Neden Önemli: RAG, LLM'lerin eğitim verisinde olmayan özel veriler, güncel olaylar veya alan-spesifik bilgi hakkında soruları cevaplammasını sağlar.
Anahtar Trade-off: RAG latency (retrieval adımı) ve karmaşıklık ekler ama alan-spesifik sorular için doğruluğu önemli ölçüde artırır.
Vector Database
Tanım: Yüksek boyutlu vektörleri (embedding'ler) saklamak ve aramak için optimize edilmiş veritabanı. Semantik benzerlik için hızlı yaklaşık en yakın komşu (ANN) aramasını enable eder.
Popüler Seçenekler (2025):
Pratik Ders: Prototiplerde basit seçeneklerle başla (Chroma, pgvector). Production ölçeği için managed servislere geç (Pinecone, OpenSearch).
Embedding
Tanım: Semantik anlamı yakalayan, metinin (veya görüntülerin vs.) yoğun vektör temsili. Benzer kavramlar benzer embedding'lere sahiptir, semantik aramayı mümkün kılar.
Embedding'ler Nasıl Çalışır: Metin, sabit boyutlu bir vektör (örneğin 1536 boyut) üretmek için embedding modeli aracılığıyla işlenir. Bu yüksek boyutlu uzaydaki konum anlamı temsil eder.
Anahtar İçerik: Embedding kalitesi doğrudan RAG performansını etkiler. Daha iyi embedding'ler = daha iyi retrieval = daha iyi cevaplar.
Chunking
Tanım: Dokümanları embedding ve retrieval için daha küçük parçalara (chunk'lar) bölme. Chunk boyutu ve stratejisi RAG kalitesini önemli ölçüde etkiler.
Yaygın Stratejiler:
- Sabit boyutlu chunking: Her N karakter/token'da böl
- Semantik chunking: Konu sınırlarında böl
- Recursive chunking: Hiyerarşik olarak böl (paragraflar -> cümleler)
- Parent-child chunking: Arama için küçük chunk'lar, bağlam için daha büyük parent döndür
En İyi Pratikler:
- 256-512 token genellikle en iyi nokta
- %10-20 overlap dahil et
- Metadata'yı koru (kaynak, sayfa numarası)
- Doküman tipini dikkate al (kod düzyazıdan farklı chunking gerektirir)
Pratik Ders: Kötü chunking RAG başarısızlıklarının yaygın bir nedenidir. Chunk'lar cümleleri bölerse veya bağlam kaybedilirse, retrieval zarar görür.
Semantic Search
Tanım: Anahtar kelime eşleştirmesi yerine anlama dayalı doküman bulma. Kavramsal olarak ilgili içeriği bulmak için embedding benzerliğini kullanır.
Anahtar Kelime Aramasından Farkı:
Sınırlılık: Salt semantik arama tam eşleşmeleri kaçırabilir. "AWS CDK" semantik olarak "infrastructure as code"a benzer ama kullanıcı tam anahtar kelime eşleşmesi isteyebilir.
Hybrid Search
Tanım: Semantik aramayı (yoğun vektörler) anahtar kelime aramasıyla (seyrek, BM25) birleştirerek her iki yaklaşımından faydalanma.
Neden Hibrit: Semantik arama parafraz yapmayı handle eder; anahtar kelime araması tam eşleşmeleri, isimleri ve kısaltmaları handle eder.
Benchmark: Hibrit arama genellikle retrieval hassasiyetini sadece semantik aramaya göre %15-25 artırır.
Reranking
Tanım: İlk sonuçları daha sofistike (ama daha yavaş) bir model kullanarak yeniden puanlayarak hassasiyeti artıran ikinci aşamalı retrieval süreci.
Nasıl Çalışır:
- İlk retrieval: Top 50-100 aday al (yüksek recall, daha düşük hassasiyet)
- Reranking: Her adayı sorguya karşı cross-encoder kullanarak puanla
- Top 5-10 döndür (yüksek hassasiyet)
Trade-off: Reranking 100-500ms latency ekler ama hassasiyeti %40-60 artırabilir.
Knowledge Base
Tanım: Bir LLM sisteminin referans alabileceği yapılandırılmış dokümanlar, olgular veya veri koleksiyonu. RAG sistemlerinde bilgi tabanı aranan ve getirilen şeydir.
Bileşenler:
- Doküman depolama (S3, veritabanı)
- Chunk'lanmış ve embed edilmiş içerik
- Retrieval için vektör indeksi
- Filtreleme için metadata
AWS Bedrock Knowledge Bases Örneği:
Fine-tuning ve Training
Fine-tuning
Tanım: Ön-eğitilmiş bir modeli ek, özelleştirilmiş veri üzerinde eğiterek belirli bir görev veya alana adapte etme.
Ne Zaman Fine-tune Et:
- Belirli output formatı gerekliyse
- Base model'de olmayan alan sözlüğü
- Tutarlı stil/ton gerekliyse
- Prompt engineering ve RAG yeterli değilse
Ne Zaman Fine-tune ETME:
- Sadece alan bilgisi gerekli (bunun yerine RAG kullan)
- Küçük veri seti (100'den az örnek)
- Hızla değişen bilgi
Maliyet Gerçeği: GPT-4o-mini fine-tuning eğitim token'ları için 0.30/0.15/$0.60/1M token).
LoRA / QLoRA
Tanım: Low-Rank Adaptation (LoRA) tam model ağırlıkları yerine küçük adapter matrisleri eğiten parametre-verimli fine-tuning yöntemidir. QLoRA daha da düşük bellek için 4-bit kuantizasyon ekler.
Neden Önemli: LoRA fine-tuning belleğini 100+ GB'dan 16GB'nin altına düşürür, tüketici donanımında mümkün kılar.
Donanım Gereksinimleri:
- 7B model tam fine-tuning: 80GB+ VRAM
- 7B model LoRA fine-tuning: 16GB VRAM
- 7B model QLoRA fine-tuning: 8GB VRAM
RLHF (Reinforcement Learning from Human Feedback)
Tanım: Model output'larını geliştirmek için insan tercihlerini kullanan eğitim tekniği. İnsanlar model yanıtlarını sıralar ve model tercih edilen output'ları üretmeyi öğrenir.
Süreç:
- Prompt'lara birden fazla yanıt üret
- İnsanlar yanıtları sıralar (en iyiden en kötüye)
- Sıralamalar üzerinde ödül modeli eğit
- LLM'i ödülü maksimize etmek için reinforcement learning ile fine-tune et
Pratik Gerçek: RLHF, ChatGPT, Claude ve diğer asistanların "yardımcı, zararsız ve dürüst" olmasını sağladı. Çoğu geliştirici doğrudan RLHF uygulamaz - önemli veri ve altyapı gerektirir.
Daha Basit Alternatifler:
- DPO (Direct Preference Optimization): Ödül modelini atlar, doğrudan tercihler üzerinde eğitir
- ORPO: Talimat tuning'i tercih hizalamasıyla birleştirir
- Constitutional AI: Yanıtlar üretmek ve değerlendirmek için AI kullanır (Anthropic'in yaklaşımı)
PEFT (Parameter-Efficient Fine-Tuning)
Tanım: Model parametrelerinin sadece küçük bir alt kümesini fine-tune eden, compute ve bellek gereksinimlerini azaltan teknikler ailesi.
PEFT Yöntemleri:
Ne Zaman Kullan: Modeli özelleştirmen gerektiğinde ama datacenter-ölçekli GPU kaynakların yoksa.
Distillation
Tanım: Daha büyük "öğretmen" modelin davranışını taklit etmek için daha küçük "öğrenci" model eğitme. Büyük modellerden daha küçük, daha hızlı modellere bilgi aktarır.
Nasıl Çalışır:
- Öğretmen modeli birçok örnek üzerinde çalıştır
- Öğretmen output'larını yakala (logit'ler, ara temsiller)
- Öğrenciyi öğretmen output'larını eşleyecek şekilde eğit
- Öğrenci öğretmeni boyutun bir kesiriyle yaklaşmayı öğrenir
Örnek: GPT-4 eğitim verisi üretir -> Llama 7B fine-tune etmek için kullanılır -> Belirli görevler için GPT-4 benzeri davranışa sahip daha küçük model.
Pratik Uygulama:
Trade-off: Distilled modeller daha küçük ve hızlı ama nadiren tüm görevlerde öğretmen kalitesiyle eşleşir.
Synthetic Data
Tanım: Gerçek dünya kaynaklarından toplanmak yerine AI modelleri tarafından üretilen eğitim verisi. İnsan etiketli veriyi artırmak veya değiştirmek için kullanılır.
Kullanım Alanları:
- Çeşitli eğitim örnekleri üretme
- Toplanması zor uç durumları oluşturma
- Fine-tuning için veri artırma
- Gizlilik korumalı veri üretimi
Kalite Uyarısı: Sentetik veri üreten modelden bias'ları ve hataları amplifiye edebilir. Her zaman kaliteyi doğrula.
Quantization (INT8/INT4/FP16)
Tanım: Model hassasiyetini 32-bit float'lardan daha düşük hassasiyete (16-bit, 8-bit, 4-bit) azaltarak bellek kullanımını düşürme ve inference hızını artırma.
Kuantizasyon Seviyeleri:
Pratik Etki: FP32'de 70B parametreli bir model ~280GB VRAM gerektirir. INT4'te ~35GB'a sığar.
Öneri: INT8 çoğu kullanım alanı için en iyi kalite/boyut trade-off'unu sunar. Bellek aşırı kısıtlı olduğunda INT4.
Pruning
Tanım: Doğruluğu korurken boyutu azaltmak ve inference hızını artırmak için gereksiz ağırlıkları veya bütün bileşenleri modelden çıkarma.
Tipler:
- Yapılandırılmamış pruning: Tekil ağırlıkları çıkar (seyrek matrisler)
- Yapılandırılmış pruning: Bütün nöronları, attention head'lerini veya katmanları çıkar
- Magnitude pruning: En küçük değerli ağırlıkları çıkar
Trade-off: Pruning model boyutunu %30-90 azaltabilir ama kaliteyi korumak için dikkatli kalibrasyon gerektirir.
GGUF / GGML
Tanım: Verimli yerel LLM inference'i için tasarlanmış model dosya formatları. GGUF (GPT-Generated Unified Format) llama.cpp ve Ollama tarafından kullanılan GGML'in halefidir.
Neden GGUF: Model ağırlıklarını, tokenizer'ı ve metadata'yı tek taşınabilir dosyada birleştirir. Çeşitli kuantizasyon seviyelerini destekler.
Kuantizasyon Varyantları:
Dosya Boyutu Örnekleri:
Model Formatları ve Lokal Inference
MLX (Apple Silicon)
Tanım: Apple Silicon (M1/M2/M3/M4) için optimize edilmiş Apple'ın makine öğrenmesi framework'ü. Mac'lerde verimli yerel LLM inference'ı enable eder.
Avantajlar:
- Birleşik bellek mimarisi için optimize edilmiş
- Birçok iş yükü için Apple Silicon'da llama.cpp'den daha hızlı
- PyTorch/NumPy'a benzer Python API
Performans: MLX, karşılaştırılabilir modeller için M3 Max'ta ~230 token/saniye elde eder vs Ollama ile ~40 token/saniye.
ONNX (Open Neural Network Exchange)
Tanım: Makine öğrenmesi modellerini temsil etmek için açık format, framework'ler (PyTorch, TensorFlow vs.) arasında birlikte çalışabilirlik sağlar.
Kullanım Alanı: PyTorch'tan modeli dışarı aktar, platformlar arası optimize edilmiş inference için ONNX Runtime ile çalıştır.
SafeTensors
Tanım: Hugging Face tarafından geliştirilen güvenli model serializasyon formatı. Pickle-tabanlı formatlardan farklı olarak SafeTensors yükleme sırasında keyfi kod çalıştırmaz.
Neden Önemli: Geleneksel PyTorch model dosyaları (.pt, .bin) pickle kullanır, bu yüklendiğinde kötü amaçlı kod çalıştırabilir. SafeTensors sadece tensor verisini saklar.
Benimsenme: Hugging Face modellerinin %42'si artık SafeTensors kullanıyor. Mümkün olduğunda her zaman .safetensors dosyalarını tercih et.
AWQ (Activation-aware Weight Quantization)
Tanım: Aktivasyon desenlerine dayanarak en önemli ağırlıkları tespit edip koruyarak doğruluğu koruyan bir kuantizasyon yöntemi.
GPTQ'ya göre avantajı: AWQ genellikle aynı bit genişliğinde daha iyi kalite sağlar; hangi ağırlıkların agresif kuantize edilebileceğini daha akıllıca belirler.
GPTQ (GPT Quantization)
Tanım: Büyük dil modelleri için eğitim-sonrası kuantizasyon yöntemi. Doğruluk kaybını en aza indirirken modelleri 4-bit veya 8-bit'e sıkıştırır.
Karşılaştırma:
Ollama
Tanım: Basit CLI ve API ile yerel olarak LLM'leri çalıştırmak için araç. Model indirmelerini, kuantizasyonu ve servisi yönetir.
En İyi Kullanım: Hızlı yerel deney, gizlilik-hassas uygulamalar, API maliyetsiz geliştirme.
LM Studio
Tanım: Grafik arayüzle yerel LLM'leri keşfetmek, indirmek ve çalıştırmak için masaüstü uygulaması. Hem llama.cpp hem MLX backend'lerini destekler.
Özellikler:
- Hugging Face için model tarayıcısı
- Otomatik kuantizasyon seçimi
- OpenAI-uyumlu API sunucusu
- Mac, Windows, Linux'ta GPU hızlandırma
llama.cpp
Tanım: CPU'larda ve çeşitli GPU'larda verimli yürütmeyi sağlayan LLM inference için C/C++ implementation'ı. Birçok yerel LLM aracının temeli.
Anahtar Özellikler:
- CPU-öncelikli tasarım (GPU olmadan çalışır)
- CUDA, Metal, Vulkan desteği
- GGUF model formatı
- Kuantizasyon desteği (Q2-Q8)
vLLM
Tanım: Production iş yükleri için optimize edilmiş yüksek verimli LLM servis motoru. Verimli bellek yönetimi için PagedAttention kullanır.
Ne Zaman Kullan: Production API servisi, yüksek eş zamanlılık, maksimum verim gerektiğinde.
llama.cpp ile Karşılaştırma:
- vLLM: Daha yüksek verim, daha iyi batching, production-odaklı
- llama.cpp: Tek kullanıcı, CPU inference, yerel kullanım için daha iyi
TGI (Text Generation Inference)
Tanım: Hugging Face'in LLM'ler için production inference sunucusu. Yüksek performanslı servis için optimize edilmiş.
Özellikler:
- Sürekli batching
- Tensor paralelizmi
- Kuantizasyon desteği
- OpenAI-uyumlu API
Agent'lar ve Orkestrasyon
AI Agent
Tanım: Aksiyon alabilen, araç kullanabilen ve hedeflere doğru otonom çalışabilen LLM-destekli sistem. Agent'lar bir döngüde algılar, karar verir ve hareket eder.
Anahtar Ayrımı: Chatbot'lar yanıt verir; agent'lar hareket eder. Bir agent bir görevi tamamlamak için web'de arama yapabilir, kod çalıştırabilir, veritabanlarını güncelleyebilir ve API'leri çağırabilir.
Tool Use / Function Calling
Tanım: LLM'lerin harici fonksiyonları veya API'leri çağırma yeteneği. Model, kodunun yürüteceği yapılandırılmış çağrılar çıktılar.
MCP (Model Context Protocol)
Tanım: Anthropic tarafından AI agent'ları harici araçlar ve veri kaynaklarına bağlamak için açık standart. Araç entegrasyonu için evrensel protokol - "AI için USB-C" olarak düşün.
Neden MCP: MCP'den önce her LLM sağlayıcısının tescilli araç entegrasyonu vardı. MCP, agent'ların harici yeteneklere nasıl eriştiği standardize eder.
Mimari:
- MCP Sunucuları: Araçlar expose eder (dosya sistemi, veritabanları, API'ler)
- MCP İstemcileri: Araçları tüketen AI uygulamaları
- Transport: stdio veya HTTP üzerinden JSON-RPC
Benimsenme (2025): Anthropic MCP'yi Kasım 2024'te piyasaya sürdü. OpenAI, Google, Microsoft ve büyük araç üreticileri 2025 boyunca benimsedi. De-facto standart haline geliyor.
Agentic Workflow
Tanım: Bir LLM'in bir hedefe ulaşmak için otonom olarak planladığı, yürüttüğü ve yinelediği çok adımlı süreç. Tek turlu konuşmalardan daha sofistike.
Pattern'ler:
- Sequential: Adımlar sırayla yürütülür
- Parallel: Bağımsız adımlar eş zamanlı çalışır
- Conditional: Sonuçlara göre dallanma
- Iterative: Başarı kriterleri karşılanana kadar tekrar
ReAct Pattern
Tanım: "Reasoning and Acting" - düşünme (reasoning) ile araç kullanmayı (acting) iç içe geçiren agent mimarisi. Model her aksiyondan önce akıl yürütmesini açıklar.
Format:
Fayda: Akıl yürütmeyi aksiyondan ayırmak güvenilirliği arttırır ve agent davranışını yorumlanabilir kılar.
Chain-of-Thought (CoT)
Tanım: Modele cevap vermeden önce akıl yürütmesini adım adım göstermesini talimat veren prompting tekniği. Karmaşık reasoning görevlerinde performansı arttırır.
Varyantlar:
- Zero-shot CoT: Sadece "Adım adım düşünelim" ekle
- Few-shot CoT: Akıl yürütme içeren örnekler sağla
- Tree-of-Thought: Birden fazla akıl yürütme yolunu keşfet
Multi-Agent Systems
Tanım: Problemleri çözmek için birden fazla özelleştirilmiş AI agent'in işbirliği yaptığı mimariler. Her agent'in bir rolü vardır (araştırmacı, kodcu, inceleyici vs.).
Örnek Mimari:
2025 Trendi: Gartner Q1 2024'ten Q2 2025'e multi-agent sistem sorgularında %1.445 artış raporladı.
Orchestration
Tanım: Karmaşık iş akışlarını tamamlamak için birden fazla LLM çağrısı, araç kullanımı ve agent'i koordine etme. AI orkestrasını yöneten "şef".
Framework'ler:
Memory (Short/Long-term)
Tanım: Agent'ların etkileşimler arasında bilgiyi saklaması için mekanizmalar. Kısa süreli bellek oturum içinde; uzun süreli bellek oturumlar arasında devam eder.
Tipler:
- Buffer Memory: Son konuşma turları (context window)
- Summary Memory: Sıkıştırılmış geçmiş
- Vector Memory: Retrieval için geçmiş etkileşimlerin embedding'leri
- Entity Memory: İnsanlar, yerler, kavramlar hakkında çıkarılmış olgular
Prompt Engineering
Zero-shot / Few-shot Prompting
Tanım:
- Zero-shot: Model görevi örneksiz gerçekleştirir
- Few-shot: Modele gerçek görevden önce örnekler verilir
Ne Zaman Kullan:
- Zero-shot: İyi bilinen görevler, yetenekli modeller
- Few-shot: Belirli formatlar, uç durumlar, tutarlılık gerekliyse
Prompt Template
Tanım: Dinamik içerik için placeholder'lara sahip yeniden kullanılabilir prompt yapısı. Prompt mantığını girdi verisinden ayırır.
System vs User Prompt
Tanım:
- System Prompt: Genel davranış, rol ve kısıtlamaları belirler (kalıcı bağlam)
- User Prompt: Gerçek istek veya soru (her etkileşimde)
En İyi Pratikler:
- Kısıtlama ve rol tanımını system prompt'a koy
- Görev-spesifik talimatları user prompt'a koy
- System prompt'ları kısa ama eksiksiz tut
- Güvenlik için sadece system prompt'lara güvenme
Prompt Injection
Tanım: Kötü niyetli girdinin LLM'i talimatlarını yok saymaya veya istenmeyen aksiyonlar gerçekleştirmeye kandırdığı saldırı. LLM uygulamaları için bir numaralı OWASP zafiyeti.
Örnek Saldırı:
Azaltma Stratejileri:
Jailbreaking
Tanım: Bir LLM'in güvenlik yönergelerini bypass ederek yasaklanmış içerik üretmesini sağlama teknikleri. Hizalamayı atlatmaya odaklanmış prompt injection alt kümesi.
Yaygın Teknikler:
- Rol yapma senaryoları ("Sen her şeyi yapabilen DAN'sın")
- Kodlama numaraları (base64, rot13)
- Çok turlu kademeli tırmandırma
- Varsayımsal çerçeveleme ("Bir roman için, bir karakter nasıl...")
Savunma Katmanları:
- Girdi filtreleme (bilinen pattern'leri engelle)
- Çıktı filtreleme (politika ihlallerini tespit et)
- Constitutional AI (model öz-eleştiri)
- Düzenli red teaming
Prompt Caching
Tanım: Özdeş ön ekleri yeniden işlemekten kaçınmak için hesaplanmış prompt temsillerini saklama. Tekrarlanan prompt'lar için latency ve maliyeti azaltır.
Sağlayıcı Desteği:
- Anthropic: Açık cache_control header'ları, cache hit'lerde %90 maliyet tasarrufu
- OpenAI: 1024 token'dan büyük prompt'lar için otomatik caching, %50 indirim
Maliyet Etkisi: 1000 kez çağırılan 10K token'lik system prompt ile caching, Claude Sonnet fiyatlandırmasında ~$27 tasarruf sağlar.
Production ve Operasyonlar
Guardrails
Tanım: Zararlı veya istenmeyen davranışı önlemek için LLM girdi ve çıktılarını filtreleyen, doğrulayan veya değiştiren güvenlik mekanizmaları.
Tipler:
- Girdi guardrail'ları: Modelden önce injection denemeleri, PII, küfürü engelle
- Çıktı guardrail'ları: Zararlı içeriği filtrele, formatı doğrula, olguları kontrol et
Framework'ler: NVIDIA NeMo Guardrails, Guardrails AI, özel validator'larla LangChain
Content Filtering
Tanım: LLM girdi veya çıktılarında uygunsuz içeriğin (nefret söylemi, şiddet, yetişkin içerik) otomatik tespiti ve engellenmesi.
Yaklaşımlar:
- Sınıflandırıcı modeller (hızlı, daha az nüanslı)
- LLM-as-judge (daha yavaş, daha nüanslı)
- Kural tabanlı (regex, anahtar kelime eşleştirme)
- Hibrit (katmanlı yaklaşım)
Rate Limiting
Tanım: Kötüye kullanımı önlemek, maliyetleri yönetmek ve kullanıcılar arasında adil kullanımı sağlamak için API isteklerinin sıklığını kontrol etme.
Batch Processing
Tanım: Birden fazla LLM isteğini birlikte işlenmek üzere gruplama, genellikle daha yüksek latency ile azaltılmış maliyetle.
Faydalar:
- %50 maliyet azaltma (OpenAI, Anthropic batch API'leri)
- Çevrimdışı/asenkron iş yükleri için daha iyi
- Daha verimli kaynak kullanımı
Ne Zaman Kullan: Analitik, içerik üretimi, veri işleme - gerçek zamanlı kullanıcı-yönelimli olmayan herhangi bir şey.
Streaming
Tanım: Tam yanıtı beklemek yerine üretildikçe token-token LLM çıktısı alma.
Faydalar:
- Daha hızlı algılanan latency (TTFT toplam süreden daha önemli)
- Chat arayüzleri için daha iyi UX
- Üretimi erken iptal edebilme
Latency / TTFT (Time to First Token)
Tanım:
- Latency: İstekten tam yanıta toplam süre
- TTFT: İlk token görülene kadar geçen süre (UX için kritik)
Latency Formülü: Toplam = TTFT + (Output Token'lar / TPS)
TTFT Benchmark'ları:
Optimizasyon Stratejileri:
- Prompt caching
- Daha küçük prompt'lar
- Yönlendirme için daha hızlı modeller
- Edge deployment
Token Budget
Tanım: Maliyetler, context limitleri ve kalite trade-off'ları dikkate alınarak bir istek için ayrılan maksimum token.
Model Routing
Tanım: Sorguları karmaşıklık, maliyet veya yetenek gereksinimlerine göre farklı modellere yönlendirme.
Maliyet Etkisi: Yönlendirme, pahalı modelleri sadece gerektiğinde kullanarak maliyetleri %60+ azaltabilir.
Maliyet ve Metrikler
Input/Output Token'lar
Tanım: Prompt'taki token'lar (input) ve yanıttaki token'lar (output) arasındaki ayrımı. Output token'lar genellikle 2-5x daha pahalı.
Fiyatlandırma Örneği (Claude Sonnet 4.6):
- Input: Milyon token başına $3
- Output: Milyon token başına $15
Maliyet Hesaplama:
Milyon Token Başına Maliyet
Tanım: LLM API'leri için standart fiyatlandırma birimi. Sağlayıcılar ve modeller arasında maliyet karşılaştırmasını sağlar.
2025 Fiyatlandırma Karşılaştırması:
Context Window Fiyatlandırması
Tanım: Bazı sağlayıcılar, özellikle çok uzun context'ler için context window'un ne kadar kullanıldığına göre farklı fiyatlandırır.
Örnek: Gemini 2.5 Pro 200K token'a kadar standart ücretler uygular, 200K'nin üzerindeki prompt'lar için 2x.
Batch API İndirimi
Tanım: Sonuçların ertelenebileceği (genellikle 24 saat) batch/asenkron API istekleri için azaltılmış fiyatlandırma.
İndirimler:
- OpenAI: Standart fiyatlandırmadan %50 indirim
- Anthropic: %50 indirim + prompt caching ile uyumlu
Ne Zaman Kullan: Veri işleme, içerik üretimi, analitik - gerçek zamanlı olmayan iş yükleri.
Güvenlik ve Uyumluluk
PII Handling
Tanım: LLM'leri kullanırken Kişisel Tanımlanabilir Bilgilerin (PII) işlenmesi için protokoller. GDPR, HIPAA ve diğer regülasyonlar için kritik.
En İyi Pratikler:
- LLM'e göndermeden önce PII'yi redakt et
- Hassas veriler için on-premise/özel deployment'lar kullan
- Output taraması uygula
- Veri akışlarını logla ve denetle
Data Residency
Tanım: Verinin fiziksel olarak nerede saklanıp işlendiği hakkındaki gereksinimler. Birçok regülasyon verinin belirli coğrafi bölgelerde kalmasını gerektirir.
Sağlayıcı Seçenekleri:
- OpenAI: US, EU (Azure OpenAI)
- Anthropic: US, EU (AWS Bedrock üzerinden)
- AWS Bedrock: Birden fazla bölge
- Azure OpenAI: 20+ bölge
Dikkat: Veri depolama bölgesel olsa bile API çağrıları sınırları geçebilir. Hem işleme hem depolama konumlarını doğrula.
Model Card
Tanım: Bir modelin yeteneklerini, sınırlılıklarını, eğitim verisini, amaçlandığı kullanımı ve bilinen bias'ları tanımlayan dokümantasyon. AI modelleri için "beslenme etiketi" gibi.
Standart Bölümler:
- Model detayları (mimari, eğitim)
- Amaçlandığı kullanım alanları
- Sınırlılıklar ve riskler
- Performans metrikleri
- Etik düşünceler
- Eğitim veri kaynakları
Neden Önemli: EU AI Act yüksek riskli AI sistemleri için belgelenmiş model bilgisi gerektirir. Model card'lar bir uyumluluk gerekliliği haline geliyor.
Red Teaming
Tanım: AI sistemlerinde deployment'tan önce zafiyetleri, bias'ları ve hata modlarını bulmak için düşmanca test.
Test Kategorileri:
- Jailbreaking denemeleri
- Prompt injection
- PII sızıntısı
- Bias tespiti
- Yanlış bilgi üretimi
Adversarial Testing
Tanım: Sağlamlığı değerlendirmek için AI sistemlerini kasıtlı olarak zorlayıcı veya kötü niyetli girdilerle sistematik test etme.
Teknikler:
- Girdi perturbasyonu (yazım hataları, kodlama numaraları)
- Uç durumlar (boş girdiler, çok uzun girdiler)
- Sınır testi (context limitleri)
- Çok turlu saldırılar (kademeli tırmandırma)
Değerlendirme ve Metrikler
Perplexity
Tanım: Bir dil modelinin bir örneği ne kadar iyi tahmin ettiğini ölçer. Daha düşük perplexity = daha iyi tahminler. Cross-entropy kaybının üstel değeri olarak hesaplanır.
Sınırlılık: Perplexity dil modelleme yeteneğini ölçer, görev performansını değil. Düşük perplexity'li bir model yine de kötü cevaplar verebilir.
Pratik Kullanım: Eğitim/fine-tuning sırasında model kalitesini karşılaştırma, production çıktılarını değerlendirme için değil.
BLEU / ROUGE
Tanım: Üretilen metni referans metinle karşılaştırmak için otomatik metrikler.
- BLEU: Hassasiyet odaklı, çeviride yaygın
- ROUGE: Recall odaklı, özetlemede yaygın
Sınırlılık: Açık uçlu üretim için insan yargılarıyla zayıf korelasyon. Referans metinlerin var olduğu belirli görevler (çeviri, özetleme) için kullan.
Human Evaluation
Tanım: İnsanların LLM çıktılarını kalite, yardımcılık, doğruluk ve güvenlik için puanlaması. Altın standart ama pahalı ve yavaş.
Yaygın Yaklaşımlar:
- A/B karşılaştırması (hangi yanıt daha iyi?)
- Likert ölçekleri (1-5 puan ver)
- Görev tamamlama oranları
- Alan-spesifik içerik için uzman incelemesi
Pratik Denge: Sürekli izleme için otomatik metrikler, periyodik denetimler ve önemli kararlar için insan değerlendirmesi kullan.
A/B Testing
Tanım: İki varyantı (prompt'lar, modeller, konfigürasyonlar) kullanıcıları rastgele atayarak ve sonuçları ölçerek karşılaştırma.
Benchmark'lar (MMLU, HumanEval)
Tanım: LLM yeteneklerini ölçmek için standardize test suitleri.
Anahtar Benchmark'lar:
Gerçeklik Kontrolü: Benchmark'lar giderek artan şekilde test verisi üzerinde eğitim yapılarak "oynanıyor". Gerçek dünya performansı genellikle benchmark puanlarından farklı.
Extended Thinking
Extended Thinking / Deep Thinking
Tanım: Modelin son cevabı üretmeden önce dahili reasoning token'ları ürettiği mod. Claude Sonnet 4.6, OpenAI o1/o3 serisi tarafından kullanılır.
Nasıl Çalışır:
- Model sorguyu alır
- "Thinking" token'ları üretir (görünür veya özetlenmiş)
- Reasoning'i daha iyi son cevap üretmek için kullanır
- Thinking token'ları output maliyetlerine dahil edilir
Maliyet Dikkat: Thinking token'lar output token olarak faturalanır. 5000 thinking token + 500 cevap token'lı bir sorgu 5500 output token ile aynı maliyettedir.
Ne Zaman Kullan:
- Karmaşık matematik/mantık problemleri
- Çok adımlı reasoning
- Analiz gerektiren kod debug'i
- Doğruluk hızdan daha önemli olduğunda
Ne Zaman KULLANMA:
- Basit S&C (aşırı overkill)
- Gerçek zamanlı chat (çok yavaş)
- Yüksek hacimli, düşük karmaşıklıklı görevler
Pratik Ders: Extended thinking zor problemlerde doğruluğu önemli ölçüde arttırır ama kolay problemlerde boş yere harcanır. Maliyet tasarrufu için model routing kullan.
Ana Çıkarımlar
-
Token'lar LLM'lerin para birimidir - Tokenization'ı anlamak maliyet yönetimi ve context window planlaması için esastır
-
Fine-tuning'den önce RAG - Çoğu kullanım alanı pahalı fine-tuning yerine retrieval ile daha iyi hizmet alır
-
Temperature rastgeleliği kontrol eder, doğruluğu değil - Düşük temperature hallucination'ları önlemez
-
Hibrit arama salt semantiğin üstünde - En iyi sonuçlar için vektör ve anahtar kelime aramasını birleştir
-
System prompt'lar güvenlik değildir - Guardrail'lar, doğrulama ve derinlemesine savunma kullan
-
Model routing para tasarruf sağlar - Pahalı modelleri sadece karmaşıklık gerektirdiğinde kullan
-
Extended thinking güçlü ama pahalı - Karmaşık reasoning görevleri için ayır
-
Değerlendirme pazarlık götürmez - Otomatik metrikler sorunları kullanıcılardan önce yakalar
-
MCP standart haline geliyor - Geleceğe yönelik araç kullanımı için MCP entegrasyonlarına yatırım yap
-
Yerel inference uygulanabilir - SLM'ler ve GGUF modelleri gizlilik korumalı, maliyetsiz inference sağlar
Yaygın Tuzaklar ve Dersler
Tuzak 1: Token Maliyetlerini Yok Saymak
- Problem: Maliyet etkilerini anlamadan özellikler geliştirmek
- Ders: Kullanıcı aksiyonu başına maliyeti erken hesapla; konuşkan bir agent konuşma başına $0.50+ maliyetinde olabilir
Tuzak 2: System Prompt'lara Aşırı Güvenmek
- Problem: System prompt'ların güvenlik sağladığını varsaymak
- Ders: System prompt'lar geçersiz kılınabilir; guardrail'lar ve doğrulama ekle
Tuzak 3: Temperature 0 = Hallucination Yok
- Problem: Deterministik = doğru olduğuna inanmak
- Ders: Temperature rastgeleliği kontrol eder, doğru olmayı değil; hallucination'lar temperature 0'da da devam eder
Tuzak 4: Her Şeyi Context'e Tıkamak
- Problem: Maksimum context window'u sığar diye kullanmak
- Ders: Modeller uzun context'lerde zorlanır; iyi retrieval'li RAG genellikle daha iyi performans gösterir
Tuzak 5: Benchmark'a Göre Model Seçmek
- Problem: MMLU puanlarına göre model seçmek
- Ders: Benchmark'lar doymuş ve oynanıyor; kendi belirli kullanım alanlarında test et
Tuzak 6: Değerlendirmeden Önce Geliştirmek
- Problem: Production'a kadar değerlendirme framework'u olmaması
- Ders: Otomatik değerlendirmeyi erken kur; ölçemediğini geliştiremezsin
Tuzak 7: Latency'yi Yok Saymak
- Problem: Sadece kalite için optimize etmek
- Ders: Kullanıcılar yavaş deneyimleri terk eder; TTFT düşündüğünden daha önemli
Bu sözlük saha rehberin olarak hizmet ediyor. Bookmark et, mimari tartışmalarda referans olarak kullan ve ekiplerini eğitmek için kullan. Bir dahaki sefere biri "her şey için GPT-4 kullanalım" veya "RAG çok karmaşık" dediğinde, tam olarak ne söylemen gerektiğini ve neden bileceksin.