Skip to content
~/sph.sh

Kurumsal AI Entegrasyon Seviyeleri: SaaS'tan Fine-Tuning'e Karar Rehberi

Kurumsal AI entegrasyon kararları için pratik 6 seviyeli framework. ChatGPT, RAG, MCP agent veya fine-tuning ne zaman kullanılmalı, PII ve finans sektörü uyumluluk gereksinimleri odaklı rehber.

Özet

Kurumsal AI benimseme süreci genellikle tahmin edilebilir bir patern izler: ekipler basit alternatifleri doğrulamadan sofistike çözümlerin peşinden koşar. Bu rehber, teknik karar vericilerin AI yeteneklerini gerçek iş ihtiyaçlarıyla eşleştirmesine yardımcı olan 6 seviyeli entegrasyon framework'ü (L1-L6) sunar. Framework, PII'yi sert bir mimari kapısı olarak vurgular ve finans sektörü düzenleyici gereksinimlerini ele alarak hem aşırı mühendislik hem de uyumluluk başarısızlıklarından kaçınmak için somut karar kriterleri sağlar.

Aşırı Mühendislik Tuzağı

Kurumsal ekiplerle AI çözümleri üzerinde çalışırken tutarlı bir ders öğrendim: en büyük risk yanlış teknolojiyi seçmek değil, problemin gerektirdiğinden daha karmaşık bir çözüm seçmektir.

Sürekli gözlemlediğim bir patern var: bir ekip dahili SSS asistanına ihtiyaç duyuyor. Mühendislik teklifi vektör veritabanları, özel embedding pipeline'ları ve 12 haftalık uygulama zaman çizelgesi içeriyor. Gerçek gereksinim? Bir öğleden sonrada deploy edilebilecek, yüklü PDF'lerle bir Claude Project.

Tersi de aynı derecede tehlikeli. Bir fintech ekibi müşteri işlem analizi için ChatGPT kullanıyor. Hızlı deployment, evet. Ama PII, uygun veri işleme anlaşması olmadan üçüncü taraf sağlayıcıya akıyor. Uyumluluk ihlali, "tasarruf edilen" geliştirme süresinden çok daha pahalıya mal oluyor.

Her iki patern de aynı kök nedenden kaynaklanıyor: AI entegrasyon seviyesini gerçek gereksinimlerle eşleştirmek için sistematik bir framework yok.

AI Entegrasyon Merdiveni: L1'den L6'ya

Entegrasyon merdiveni, AI yetenek seçimi için yapılandırılmış bir yaklaşım sağlar. Her seviye bir öncekinin üzerine inşa edilir, karmaşıklık ekler ama aynı zamanda yetenek de ekler.

L1: SaaS AI Chat - Doğrudan Kullanım

Ne olduğu: ChatGPT, Claude veya benzer servislere doğrudan tarayıcı erişimi. Entegrasyon yok, özelleştirme yok, manuel bağlam paylaşımı.

Uygulama maliyeti: Kullanıcı başına aylık $20-60, sıfır geliştirme süresi

En uygun olduğu durumlar:

  • Bireysel üretkenlik görevleri (yazma, beyin fırtınası, kod inceleme)
  • Kamuya açık bilgi üzerinde araştırma
  • Sistem kurmadan önce prompt prototipleme
  • Ad-hoc teknik sorular

Kısıtlamalar:

  • Oturumlar arası veri kalıcılığı yok
  • Üçüncü taraf sağlayıcılara PII maruziyeti
  • Uyumluluk için denetim izi yok
  • İş sistemleriyle entegrasyon yok
typescript
// L1 yeterli olduğunda// Senaryo: Geliştirici algoritma optimizasyonu yardımı istiyor
// Kullanıcı Claude'a doğrudan yapıştırıyor:const prompt = `Büyük dizilerde yavaş çalışan sıralama fonksiyonum var.Optimizasyon önerebilir misin?
function bubbleSort(arr) {  for (let i = 0; i < arr.length; i++) {    for (let j = 0; j < arr.length - i - 1; j++) {      if (arr[j] > arr[j + 1]) {        [arr[j], arr[j + 1]] = [arr[j + 1], arr[j]];      }    }  }  return arr;}`;
// API gerekmiyor, altyapı gerekmiyor, geliştirme süresi gerekmiyor// Bu kullanım senaryosu için doğru seviye bu

L2: Custom GPT / Claude Projects

Ne olduğu: Yüklü bilgi dosyalarıyla özel sistem prompt'ları. AI, belirli bağlam ve davranışa sahip uzman bir asistan haline gelir.

Uygulama maliyeti: Kullanıcı başına aylık $25-60 (Team/Enterprise katmanları), 2-8 saat kurulum

En uygun olduğu durumlar:

  • Sabit içerikli dahili bilgi tabanları
  • Uyumluluk belgesi Soru-Cevap (kamuya açık politikalar)
  • İşe alım asistanları
  • Teknik dokümantasyon arama
  • Ürün SSS sistemleri
yaml
# Örnek Claude Project YapılandırmasıName: "Uyumluluk Politikası Asistanı"System Prompt: |  Organizasyonumuz için bir uyumluluk asistanısın.  Bilgin yüklü politika belgeleriyle sınırlı.
  Kurallar:  - Sadece yüklü belgelere dayalı soruları yanıtla  - Bilgi belgelerde yoksa, açıkça söyle  - Her zaman kaynak belgeyi ve bölümü belirt  - Asla politika veya prosedür uydurma  - Kapsam dışındaki sorular için [email protected]'a yönlendir
Knowledge Files:  - çalışan-el-kitabi-2025.pdf (150 sayfa)  - kara-para-aklama-politikasi.pdf (80 sayfa)  - veri-koruma-yonergeleri.pdf (45 sayfa)
Context Window Kullanımı:  - System prompt: ~500 token  - Bilgi getirme: ~50,000 token (dinamik yüklenen)  - Konuşma geçmişi: ~20,000 token  - Yanıt için mevcut: ~129,500 token (Claude 200K)

L2 Yeterlilik Kontrol Listesi:

  • İçerik çoğunlukla statik (güncellemeler haftada birden az)
  • PII veya hassas iş verisi gerekmiyor
  • Bilgi tabanı token limitlerinin içinde
  • Gerçek zamanlı sistem entegrasyonu gerekmiyor
  • Takım boyutu 50 kullanıcının altında
  • Düzenleyici denetim izi gereksinimleri yok

L3: AI ile Otomasyon Araçları

Ne olduğu: AI'yi işleme adımları olarak dahil eden iş akışı otomasyon platformları (n8n, Make, Zapier). Özel geliştirme olmadan AI'yi iş sistemlerine bağlar.

Uygulama maliyeti: Aylık $50-600 platform + API maliyetleri, 1-2 hafta kurulum

Platform karşılaştırması:

Özellikn8nMakeZapier
Self-hostingEvetHayırHayır
SOC 2Evet (Cloud)EvetEvet
GDPR UyumlulukEvet (self-host)EvetEvet
Min Takım Maliyeti$25/ay$16/ay$20/ay
En UygunKontrol, karmaşık akışlarDengeBasitlik

En uygun olduğu durumlar:

  • Yüksek hacimli, tekrar eden AI görevleri
  • Çoklu sistem orkestrasyonu
  • Olay tabanlı AI yanıtları
  • Özel AI mühendisliği kapasitesi olmayan takımlar
typescript
// n8n iş akışı örneği: Destek bileti sınıflandırmaconst ticketClassificationWorkflow = {  // Node 1: Webhook yeni Zendesk bileti alıyor  trigger: {    type: "webhook",    source: "zendesk"  },
  // Node 2: AI sınıflandırma  aiClassification: {    prompt: `      Bu destek biletini bir kategoriye sınıflandır:      - billing: Ödeme, fatura, abonelik sorunları      - technical: Ürün hataları, API hataları, entegrasyon problemleri      - account: Giriş, izinler, profil güncellemeleri      - sales: Fiyatlandırma soruları, yükseltmeler, kurumsal talepler
      Bilet Konusu: {{ticket.subject}}      Bilet Açıklaması: {{ticket.description}}
      JSON döndür: {"category": "...", "urgency": "low|medium|high"}    `  },
  // Node 3: Sınıflandırmaya göre yönlendir  routing: {    billing: { queue: "fatura-takimi", sla: "24s" },    technical: { queue: "muhendislik-destek", sla: "4s" },    account: { queue: "musteri-basarisi", sla: "12s" },    sales: { queue: "satis-takimi", sla: "2s" }  }};
// Ayda 5,000 bilet için maliyet:// n8n Cloud: $25 + OpenAI API ~$10 = $35/ay// vs. manuel yönlendirme: Günlük 2+ saat insan zamanı

L4: RAG Altyapısı

Ne olduğu: Vektör veritabanları, embedding modelleri ve orkestrasyon koduyla özel retrieval-augmented generation. Getirme ve üretim pipeline'ı üzerinde tam kontrol.

Uygulama maliyeti: Aylık $500-2000 altyapı + 4-8 hafta geliştirme

Mimari genel bakış:

AWS Bedrock Knowledge Bases uygulamasi:

typescript
import {  BedrockAgentRuntimeClient,  RetrieveAndGenerateCommand} from "@aws-sdk/client-bedrock-agent-runtime";
interface RAGResponse {  answer: string;  citations: Array<{    source: string;    content: string;    score: number;  }>;}
async function queryKnowledgeBase(  question: string,  knowledgeBaseId: string): Promise<RAGResponse> {  const client = new BedrockAgentRuntimeClient({ region: "eu-west-1" });
  const command = new RetrieveAndGenerateCommand({    input: { text: question },    retrieveAndGenerateConfiguration: {      type: "KNOWLEDGE_BASE",      knowledgeBaseConfiguration: {        knowledgeBaseId,        modelArn: "arn:aws:bedrock:eu-west-1::foundation-model/anthropic.claude-sonnet-4-5-20250929-v1:0",        retrievalConfiguration: {          vectorSearchConfiguration: {            numberOfResults: 10,            overrideSearchType: "HYBRID"          }        },        generationConfiguration: {          promptTemplate: {            textPromptTemplate: `Sağlanan bağlama dayalı soruları yanıtlayan yardımcı bir asistansın.
Bağlam:$search_results$
Soru: $query$
Talimatlar:- Sadece sağlanan bağlama dayalı yanıtla- Bağlam yanıtı içermiyorsa, söyle- Her zaman kaynak belgeyi belirt- Kısa ama kapsamlı ol`          }        }      }    }  });
  const response = await client.send(command);
  return {    answer: response.output?.text || "Yanıt üretilemedi",    citations: response.citations?.map(c => ({      source: c.retrievedReferences?.[0]?.location?.s3Location?.uri || "Bilinmiyor",      content: c.retrievedReferences?.[0]?.content?.text || "",      score: c.retrievedReferences?.[0]?.score || 0    })) || []  };}

L4 ne zaman gerekli:

  • Bilgi tabanı L2 limitlerini aşıyor (>200K token, >20 dosya)
  • Gerçek zamanlı güncellemeler gerekli (belgeler günlük değişiyor)
  • Özel chunking veya getirme mantığı gerekli
  • Sorgu ve yanıtların denetim izi zorunlu
  • Veri yerleşimi kontrol edilmeli
  • Yüksek hacim (>1000 sorgu/gün)

Aylık maliyet dökümü (100K sorgu/ay):

BileşenServisMaliyet
Vector DBOpenSearch Serverless (2 OCU)$350
EmbeddingsTitan (100K sorgu x 500 token)$1
LLMClaude Sonnet (100K x 2K token)$600
DepolamaS3 (100GB belge)$3
LambdaSorgu işleme$20
Toplam~$980/ay

L5: MCP ile Custom Agent'lar

Ne olduğu: Model Context Protocol (MCP) aracılığıyla araç erişimli AI agent'ları. Agent akıl yürütebilir, planlayabilir ve birden fazla sistemde eylem alabilir.

Uygulama maliyeti: Aylık $1000-5000 altyapı + 8-16 hafta geliştirme

Mimari paterni:

MCP Server uygulama örneği:

typescript
// Not: Bu örnek MCP SDK v1.x pattern'lerini kullanırimport { McpServer } from "@modelcontextprotocol/sdk/server/mcp.js";import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";import { z } from "zod";
const server = new McpServer({  name: "musteri-destek-araclari",  version: "1.0.0"});
// Araç: Email ile müşteri arama (sadece PII olmayan bilgi döndürür)server.tool(  "lookup_customer",  {    email: z.string().email().describe("Müşteri email adresi")  },  async ({ email }) => {    const customer = await db.customers.findByEmail(email);
    if (!customer) {      return {        content: [{          type: "text",          text: JSON.stringify({ found: false })        }]      };    }
    // Sadece hassas olmayan müşteri bilgisi döndür    return {      content: [{        type: "text",        text: JSON.stringify({          found: true,          customer_id: customer.id,          tier: customer.subscription_tier,          account_status: customer.status          // Not: Tam isim, adres, ödeme bilgisi gibi PII yok        })      }]    };  });
// Araç: Bilet oluştur (yüksek öncelik insan onayı gerektirir)server.tool(  "create_ticket",  {    customer_id: z.string(),    subject: z.string(),    description: z.string(),    category: z.enum(["billing", "technical", "account", "other"]),    priority: z.enum(["low", "medium", "high"])  },  async ({ customer_id, subject, description, category, priority }) => {    // Yüksek öncelik veya faturalama = insan onayı gerekli    if (priority === "high" || category === "billing") {      return {        content: [{          type: "text",          text: JSON.stringify({            status: "pending_approval",            message: "Bu bilet insan onayı gerektiriyor"          })        }]      };    }
    const ticket = await db.tickets.create({      customer_id, subject, description, category, priority,      created_by: "ai-agent"    });
    // Uyumluluk için denetim loğu    await auditLog.write({      action: "ticket_created_by_agent",      ticket_id: ticket.id,      timestamp: new Date()    });
    return {      content: [{        type: "text",        text: JSON.stringify({ status: "created", ticket_id: ticket.id })      }]    };  });
async function main() {  const transport = new StdioServerTransport();  await server.connect(transport);}
main();

L5 ne zaman gerekli:

  • Planlama ve akıl yürütme gerektiren çok adımlı iş akışları
  • Bağlama dayalı dinamik araç seçimi
  • Tek sorguda birden fazla sistemle etkileşim
  • Koşullu mantıkla karmaşık karar ağaçları
  • Hassas işlemler için insan-in-the-loop

L6: Fine-tuning / Kendi Modeller

Ne olduğu: Tescilli veri üzerinde özel model eğitimi. Sadece prompting ile elde edilemeyen uzman davranış.

Uygulama maliyeti: Aylık $2000-10000 + önemli ML uzmanlığı

Fine-tuning ne zaman gerçekten mantıklı:

SenaryoNeden Fine-tuningÖnce Dene
Uzman terminolojiModel jargonu anlamıyorFew-shot prompting
Tutarlı çıktı formatıSıkı formatlama gereksinimleriÇıktı ayrıştırma
Düşük gecikmeTek çıkarım vs RAGModel damıtma
Ölçekte maliyetYüksek hacim, token başı pahalıDaha küçük model
Tescilli bilgiHarici API kullanılamazOn-premises RAG

Fine-tuning'den ne zaman kaçınmalı:

  • Problem daha iyi prompting ile çözülebilir (önce few-shot dene)
  • Veri sık değişiyor (yeniden eğitim pahalı)
  • Küçük veri seti (1000'den az örnek) - overfitting riski
  • Bütçe kısıtlamaları (AI için aylık $1000'in altında)
  • Takım eğitim verisi kürasyon için ML uzmanlığı yok

PII: Sert Mimari Kapısı

PII (Kişisel Tanımlanabilir Bilgi) mimari gereksinimlerini temelden değiştirir. Bu optimizasyon değil - yasal uyumluluktur.

Kritik kural: PII söz konusu olduğunda L1-L2 yasaktır. İstisna yok.

Seviyeye göre PII işlem gereksinimleri:

PII ile L3 (minimum uygulanabilir):

typescript
interface L3PIIConfig {  platform: "n8n-self-hosted" | "enterprise-tier-with-dpa";
  aiProvider: {    // Veri İşleme Anlaşması gerekli    dataProcessingAgreement: string;    dataResidency: "eu" | "tr" | "specific-region";  };
  security: {    encryptionAtRest: true;    encryptionInTransit: true;    auditLogging: true;  };
  compliance: {    retentionPolicy: "30-gun" | "gerektigi-kadar";    deletionProcedure: "belgelenmis-ve-test-edilmis";  };}

PII ile L4 (önerilen):

typescript
interface L4PIIArchitecture {  vectorDatabase: {    // Self-hosted veya uygun DPA ile    provider: "opensearch-self-hosted" | "pgvector" | "qdrant-private";    encryption: {      atRest: "AES-256";      inTransit: "TLS-1.3";      keyManagement: "AWS-KMS" | "HashiCorp-Vault";    };  };
  llmProvider: {    // VPC endpoint ile AWS Bedrock - veri public internet'e çıkmıyor    type: "aws-bedrock";    vpcEndpoint: true;    modelInvocationLogging: true;  };
  dataHandling: {    // PII embedding öncesi tokenize edilmeli    preprocessing: "tokenization";    tenantIsolation: true;    rowLevelSecurity: true;  };}

Finans Sektörü Gereksinimleri

Finansal hizmetler, genel GDPR uyumluluğunu aşan benzersiz AI gereksinimlerine sahiptir.

Düzenleyici çerçeve:

Yetki AlanıTemel DüzenlemelerAI-Spesifik Gereksinimler
ABGDPR, AI Act, MiFID IIAçıklanabilirlik, insan gözetimi
ABDGLBA, FCRA, eyalet yasalarıAdil kredi, olumsuz işlem bildirimleri
Birleşik KrallıkUK GDPR, FCA kurallarıTüketici Görevi, operasyonel dayanıklılık
TürkiyeKVKK, BDDK düzenlemeleriVeri yerelleştirilmesi (sektöre özgü, bankacılıkta daha sıkı), özel kategoriler

Finansta L1-L2 - Genellikle Yasak:

  • Müşteri veri analizi
  • İşlem izleme
  • Kredi kararları
  • Yatırım tavsiyesi

Finansta L1-L2 - İzin Verilen:

  • Kamuya açık veri üzerinde dahili araştırma
  • Kod inceleme (müşteri olmayan kod)
  • Genel iş yazımı
  • Eğitim materyali geliştirme

Finansa özgü L4+ gereksinimleri:

typescript
interface FinanceAIRequirements {  auditTrail: {    inputLogging: true;    modelVersionLogging: true;    outputLogging: true;    retentionPeriod: "7-yil"; // Düzenleyici minimum  };
  explainability: {    humanReadableExplanations: true;    featureImportance: true;    adverseActionNotices: true; // Kredi kararları için  };
  humanOversight: {    materialThreshold: 10000; // > $10K işlemler    appealProcess: true;    escalationPath: true;  };
  modelRiskManagement: {    // SR 11-7 / OCC 2011-12'ye göre    modelValidation: "bagimsiz-takim";    ongoingMonitoring: true;    performanceTesting: "ucaylik";  };}

GDPR/KVKK Uygulama Öncesi Kontrol Listesi:

  • Yasal dayanak belirlendi (onay, sözleşme, meşru menfaat)
  • Yüksek riskli işleme için Veri Koruma Etki Değerlendirmesi yapıldı
  • Teknik önlemler uygulandı (şifreleme, erişim kontrolleri, denetim loglama)
  • AI sağlayıcı ile Veri İşleme Anlaşması imzalandı
  • Veri sahibi hakları prosedürleri belgelendi (erişim, silme, taşınabilirlik)
  • İşleme faaliyeti VERBIS'te kaydedildi
  • Gizlilik bildirimi AI işlemesini içerecek şekilde güncellendi

Karar Framework'ü

Uygun entegrasyon seviyesini belirlemek için bu akış şemasını kullan:

Seviye seçim matrisi:

Kullanım SenaryosuÖnerilen SeviyeYükseltme Sinyali
Kişisel üretkenlikL1Takım paylaşımlı erişim istiyor
Dahili SSS (küçük)L2İçerik limitleri aşıyor
Dahili SSS (büyük)L4Çoklu sistem verisi gerekli
Destek bileti yönlendirmeL3Karmaşık yönlendirme mantığı
Eylem alan destek agent'ıL5Yok - doğru uyum bu
Uyumluluk belge kontrolüL2-L3Denetim izi gerekli
Belge analiziL4Alana özgü doğruluk
İşlem sınıflandırmaL6Ölçekte gecikme/maliyet kritik

Aşırı Mühendislik Örnekleri

Örnek 1: Gereksiz RAG

Bir şirket 500 sayfalık çalışan el kitabı için AI asistanı istedi.

Önerilen çözüm: OpenSearch ile L4 RAG, özel embedding pipeline, 8 haftalık zaman çizelgesi.

Gerçek gereksinim analizi:

  • 500 sayfa = ~250K token (Claude'un bağlamı içinde)
  • Güncellemeler: üç aylık el kitabı revizyonları
  • Kullanıcılar: 200 çalışan
  • Denetim izi gereksinimi yok

Doğru çözüm: L2 Claude Project

  • Kurulum süresi: 2 saat
  • Aylık maliyet: 5,000(200kullanıcıx5,000 (200 kullanıcı x 25 Team planı)
  • Doğruluk: El kitabı Soru-Cevap için yeterli

Tasarruf: 8 hafta geliştirme süresi, devam eden altyapı maliyetleri.

Örnek 2: Uyumluluk Başarısızlığı

Bir fintech startup müşteri işlem patern analizi için L1 ChatGPT kullandı.

Düşündükleri: Hızlı deployment, altyapı maliyeti yok.

Gerçek:

  • Müşteri işlem verisi PII'dir
  • OpenAI ile Veri İşleme Anlaşması yok
  • Düzenleyici inceleme için denetim izi yok
  • Veri potansiyel olarak yetki alanını terk ediyor

Sonuç: GDPR/KVKK ihlal riski, potansiyel düzenleyici işlem.

Doğru çözüm: AWS Bedrock ile minimum L4

  • VPC endpoint (veri AWS'yi terk etmiyor)
  • Denetim izi için model çağrı loglama
  • Veri yerleşimi için AB/TR bölgesi

Maliyet Karşılaştırması

Aylık maliyet tahminleri (orta ölçekli kurum, 10K sorgu/ay):

SeviyeAltyapıAPI/KullanımGeliştirme Süresi (Tek Seferlik)Aylık Toplam
L1$0$400 (20 kul.)0$400
L2$0$500 (20 kul.)8 saat$500
L3$100$5040 saat$150
L4$500$300160 saat$800
L5$1,000$800320 saat$1,800
L6$2,500$500400 saat$3,000

Geliştirme maliyetleri tek seferlik; devam eden bakım yıllık %10-20 ekler.

Model Seçim Stratejisi

Doğru entegrasyon seviyesini seçmek denklemin sadece yarısı. Her görev için uygun modeli seçmek hem maliyeti hem kaliteyi doğrudan etkiler. Her görev en güçlü (ve en pahalı) modeli gerektirmez.

Güncel Model Manzarası (Ocak 2026)

Anthropic Claude Modelleri:

ModelInput (/1M)Output (/1M)ContextEn Uygun
Opus 4.5$5.00$25.00200KKompleks akıl yürütme, kritik kararlar
Sonnet 4.5$3.00$15.00200K-1MKod analizi, RAG, genel amaç
Haiku 4.5$1.00$5.00200KHızlı işler, sınıflandırma, basit Q&A
Haiku 3.5$0.80$4.00200KBütçe işleri, yüksek hacim

OpenAI Modelleri:

ModelInput (/1M)Output (/1M)ContextEn Uygun
GPT-4.1$2.00$8.001MGenel amaç, geniş context
o3$2.00$8.00200KKompleks akıl yürütme, matematik, kodlama
o4-mini$1.10$4.40200KHızlı akıl yürütme görevleri
GPT-4o$2.50$10.00128KMultimodal, genel amaç
GPT-4o-mini$0.15$0.60128KBütçe işleri, basit operasyonlar

Google Gemini Modelleri:

ModelInput (/1M)Output (/1M)ContextEn Uygun
Gemini 2.5 Pro$1.25-2.50$10-151MKodlama, kompleks promptlar
Gemini 2.5 Flash$0.30$2.501MHızlı, maliyet verimli
Gemini 2.5 Flash-Lite$0.10$0.401MEn yüksek verimlilik
Gemini 2.0 Flash$0.10$0.401MUltra hızlı, bütçe seçeneği

Görev-Model Eşleştirmesi

Yaygın hata, gerektirmeyen görevler için premium model kullanmaktır:

Görev TipiYanlış SeçimDoğru SeçimMaliyet Tasarrufu
Basit Q&A, FAQOpus 4.5 ($5)Haiku 4.5 ($1)5x
Doküman sınıflandırmaSonnet 4.5 ($3)GPT-4o-mini ($0.15)20x
Metin özetlemeGPT-4o ($2.50)Gemini Flash ($0.30)8x
Kod reviewHaiku ($1)Sonnet 4.5 ($3)Kalite iyileştirme
Finansal analizHaiku ($1)Opus/o3 ($5)Risk azaltma
Kompleks akıl yürütmeSonnet ($3)o3 ($2)Daha iyi doğruluk

Model Yönlendirme Mimarisi

Üretim sistemleri için, görev karmaşıklığına dayalı akıllı yönlendirme uygulayın:

typescript
interface ModelRouter {  // Gelen istek karmaşıklığını sınıflandır  classifier: {    model: "haiku-4.5"; // Sınıflandırmak için ucuz model kullan    categories: ["simple", "medium", "complex", "critical"];  };
  // Uygun modele yönlendir  routing: {    simple: {      model: "gpt-4o-mini",      costPer1M: 0.15,      useCases: ["FAQ", "formatlama", "siniflandirma"]    };    medium: {      model: "sonnet-4.5",      costPer1M: 3.00,      useCases: ["ozetleme", "kod-review", "analiz"]    };    complex: {      model: "o3",      costPer1M: 2.00,      useCases: ["akil-yurutme", "matematik", "cok-adimli"]    };    critical: {      model: "opus-4.5",      costPer1M: 5.00,      useCases: ["finansal-kararlar", "uyumluluk", "hukuki"]    };  };}

Maliyet Optimizasyon Stratejileri

1. Acil Olmayan Görevler için Batch API Hem Anthropic hem OpenAI toplu işlemede %50 indirim sunar. Kullanım alanları:

  • Doküman işleme boru hatları
  • Gece analiz işleri
  • Toplu sınıflandırma

2. Prompt Önbellekleme Anthropic'in prompt caching'i: önbellek okumaları temel fiyatın sadece %10'u. Etkili olduğu alanlar:

  • Tekrarlanan sistem promptları
  • Yaygın context blokları
  • Sabit bilgi tabanlarıyla RAG

3. Model Kaskad Deseni En ucuz modelle başla, sadece başarısızlıkta yükselt:

typescript
async function cascadeQuery(prompt: string): Promise<string> {  // Önce ucuz modeli dene  const haiku = await query("haiku-4.5", prompt);  if (haiku.confidence > 0.8) return haiku.response;
  // Orta seviyeye yükselt  const sonnet = await query("sonnet-4.5", prompt);  if (sonnet.confidence > 0.9) return sonnet.response;
  // Kompleks durumlar için son yükseltme  return await query("opus-4.5", prompt);}

4. Context Pencerelerini Doğru Boyutlandır İhtiyacın olmayan context için ödeme yapma:

  • 128K context (GPT-4o-mini): Çoğu chatbot etkileşimi
  • 200K context (Claude modelleri): Doküman Q&A
  • 1M context (Gemini Pro, GPT-4.1): Tam kod tabanı analizi

Entegrasyon Seviyesi + Model Seçim Matrisi

SeviyeBütçe ModelStandart ModelPremium Model
L1ChatGPT FreeClaude Pro ($20/ay)ChatGPT Plus ($20/ay)
L2-Claude Team ($25/kul.)ChatGPT Business ($30/kul.)
L3GPT-4o-mini APISonnet 4.5 APIo3 API
L4Haiku + Titan EmbedSonnet + TitanOpus + Cohere
L5Yönlendirme için HaikuAgent'lar için SonnetKritik için Opus
L6Fine-tuned küçükFine-tuned ortaÖzel büyük

Kilit içerik: model seçimi görev gereksinimlerine uygun olmalı, kurumsal prestije değil. İsteklerin %80'i için Haiku ve %20'si için Opus kullanan iyi tasarlanmış bir sistem, her şey için Opus kullanan bir sistemi geride bırakacaktır - maliyetin küçük bir kısmında.

Uygulama Paternleri

Patern 1: Progresif Geliştirme

L2'de başla, sadece kanıtla yükselt:

  1. İlk kullanım senaryosu için Claude Project deploy et
  2. Doğruluk ve kullanıcı memnuniyetini ölç
  3. Karşılaşılan spesifik kısıtlamaları belgele
  4. L4'ü sadece L2'nin başarısız olduğu durumlar için inşa et
  5. Basit sorgular için L2'yi çalıştırmaya devam et (maliyet optimizasyonu)

Patern 2: PII-Öncelikli Mimari

PII muhtemel olduğunda, başından tasarla:

  1. Tüm verilerin sonunda PII içerebileceğini varsay
  2. Başından L4+ altyapı üzerine inşa et
  3. Denetim loglamayı temel özellik olarak uygula
  4. Veri yerleşimi gereksinimlerine göre tasarla
  5. Kısıtlamaları gevşetmek, sonradan eklemekten kolay

Patern 3: Tasarımla Finans Uyumluluğu

Finansal hizmetler için, uyumluluk opsiyonel değil:

    1. günden model risk yönetimi dokümantasyonu
  1. Açıklanabilirlik temel özellik, sonradan ekleme değil
  2. Tüm önemli kararlar için insan-in-the-loop
  3. 7 yıllık saklama gereksinimine uyan denetim izi
  4. Üretime almadan önce bağımsız doğrulama

Temel Çıkarımlar

  1. En yüksekte değil, doğru seviyede başla: Çoğu problem L2-L3'te çözülebilir. Sadece spesifik kısıtlamaların kanıtlarıyla yükselt.

  2. PII sert bir kapıdır: PII söz konusu olduğunda, diğer faktörlerden bağımsız olarak L3+ zorunludur. Kısayol yok.

  3. Finansın benzersiz gereksinimleri var: Denetim izleri, açıklanabilirlik ve insan gözetimi düzenleyici gereksinimlerdir, güzel olsalar değil.

  4. Yükseltme sinyalleri spesifiktir: Rakipler RAG yapıyor diye yükseltme. L2'nin kısıtlamalarını ölçtüğünde yükselt.

  5. Maliyet karmaşıklıkla birleşiyor: Her seviye toplam sahiplik maliyetini kabaca ikiye katlar. Değerin bunu haklı kıldığından emin ol.

  6. Bakım hafife alınıyor: Geliştirme maliyetinin yıllık %20-30'unu operasyonlar için bütçele.

  7. Progresif geliştirme işe yarıyor: Basit başla, değer kanıtla, kanıta dayalı olarak kademeli karmaşıklık ekle.

  8. Doğru cevap değişir: Gereksinimler geliştikçe üç ayda bir seviye uygunluğunu yeniden değerlendir.

Amaç en sofistike AI sistemini inşa etmek değil. Amaç riski uygun şekilde yönetirken iş problemlerini etkili bir şekilde çözmektir. Bazen bu Claude Project demektir. Bazen fine-tuned modeller demektir. Framework hangisini bilmeni sağlar.

İlgili Yazılar