Ayhan Sipahi 2025-09-08

Metriklerin Ötesinde Observability: Sistem Hikaye Anlatıcılığı Sanatı

Yeşil ışıklı dashboard'lardan, dağıtık izleme ile sistem davranışını ve iş etkisini anlatan observability sistemlerine geçişin yolu.

Özet

Geleneksel monitoring dashboard’ları sağlıklı metrikler gösterirken kritik kullanıcı yolculukları sessizce başarısız olabilir. Distributed tracing ve AI destekli pattern tanıma, ham telemetriyi sistem davranışı hakkında tutarlı hikayelere dönüştürür; ekipler karmaşık hata modlarını anlar ve kullanıcıları etkilemeden önce sorunları tahmin eder.

Yanıltıcı Dashboard’lar

Tüm dashboard’lar yeşil gösterir, her metrik mükemmel görünür, ama müşteriler bozuk checkout’lardan şikayet eder. Monitoring’in bize söyledikleri ile kullanıcıların gerçekte yaşadıkları arasındaki boşluk temel bir gerçeği ortaya çıkarır: metrikler tek başına hikaye anlatmaz, ve karmaşık sistemleri anlamak için hikayelere ihtiyacımız var. Distributed tracing bu hikayeyi sağlar: tek bir trace kullanıcı yolculuğunu uçtan uca gösterir.

Gizli Sistem Hatalarını Anlamak

Not: Aşağıdaki senaryo, birden fazla e-ticaret platformundaki gerçek production incident’lerinden uyarlanmıştır.

Büyük bir alışveriş etkinliği sırasında, dashboard’larımız mükemmel sağlık gösteriyordu - CPU %40, bellek kullanımı normal, response time’lar ortalama 200ms. Geleneksel olarak izlediğimiz her şey sağlıklı sistemler gösteriyordu. Bu arada, checkout tamamlama oranımız bir saat içinde %75’ten %12’ye düşmüştü.

Tek bir distributed trace tüm hikayeyi ortaya çıkardı: öneri servisimizin cache’i bozulmuştu ve checkout başına 2 yerine 47 API çağrısı yapıyordu. Her çağrı hızlı olduğu için bireysel servis metrikleri iyi görünüyordu, ama kümülatif etki kullanıcı deneyimini mahvediyordu. O tek trace bize binlerce metrik veri noktasından daha fazlasını anlattı.

// Metriklerimizin bize gösterdiği
interface GelenekselMetrikler {
  cpu: "ortalama %40";
  bellek: "6GB/8GB";
  responseTime: "200ms p50";
  hataOrani: "%0.1";
  // Mükemmel görünüyor, değil mi?
}

// Distributed trace'in ortaya çıkardığı
interface GercekHikaye {
  kullaniciYolculugu: "checkout_denemesi";
  toplamSure: "8.3 saniye"; // Kullanıcı 5 saniye sonra vazgeçti
  spanSayisi: 247; // ~15 olmalıydı
  kritikYol: {
    servis: "oneri-servisi",
    operasyon: "ilgili_urunleri_getir",
    cagrilar: 47, // İşte suçlu
    toplamZaman: "6.8 saniye"
  };
  isEtkisi: {
    terkedilmisSepetler: 1247,
    kayipGelir: "$186,000/saat"
  };
}

Anlatı Odaklı Observability İnşa Etmek

En değerli telemetri bireysel servislerle ilgili değil - tüm sisteminizdeki kullanıcı etkileşimlerinin hikayesini anlamakla ilgili. İşte hikaye odaklı observability’yi nasıl uygulayacağınız:

OpenTelemetry Yolculuk Haritacısı

Tam kullanıcı yolculuklarını yakalamak için servisler şu şekilde instrument edilir:

import { trace, context, SpanStatusCode } from '@opentelemetry/api';
import { BusinessContext } from './business-metrics';

class CheckoutService {
  private tracer = trace.getTracer('checkout-service', '1.0.0');
  
  async processCheckout(userId: string, cart: CartData): Promise<CheckoutResult> {
    // Teknik detaylarla değil, iş bağlamıyla başla
    const span = this.tracer.startSpan('kullanici.checkout.deneme', {
      attributes: {
        'kullanici.id': userId,
        'kullanici.seviye': await this.getUserTier(userId),
        'is.sepet_degeri': cart.totalValue,
        'is.gelir_etkisi': cart.totalValue,
        'yolculuk.adim': 'checkout_basladi',
        'yolculuk.giris_noktasi': cart.referrer
      }
    });
    
    // Context'i servis sınırları boyunca yay
    return context.with(trace.setSpan(context.active(), span), async () => {
      try {
        // Her adım hikayeye eklenir
        span.addEvent('envanter.dogrulama.basladi', {
          kontrol_edilecek_urunler: cart.items.length
        });
        
        const inventory = await this.validateInventory(cart);
        
        if (!inventory.allAvailable) {
          // Checkout'un NEDEN başarısız olduğunu söyler
          span.setAttributes({
            'hata.nedeni': 'envanter_yok',
            'hata.urunler': inventory.unavailableItems.join(','),
            'is.etki': 'checkout_terkedildi'
          });
          span.setStatus({ 
            code: SpanStatusCode.ERROR, 
            message: 'Envanter kontrolü başarısız' 
          });
          return { success: false, reason: 'stokta_yok' };
        }
        
        // Hikayeyi oluşturmaya devam et...
        span.addEvent('odeme.isleme.basladi');
        const payment = await this.processPayment(cart, userId);
        
        span.setAttributes({
          'yolculuk.tamamlandi': true,
          'is.siparis_degeri': payment.amount,
          'yolculuk.toplam_sure_ms': Date.now() - span.startTime
        });
        
        return { success: true, orderId: payment.orderId };
        
      } catch (error) {
        // Başarısızlık hikayesini yakala
        span.recordException(error);
        span.setAttributes({
          'hata.asama': this.getCurrentStage(),
          'hata.kurtarma_denendi': true,
          'is.etki': 'gelir_kaybi'
        });
        throw error;
      } finally {
        span.end();
      }
    });
  }
}

Trace’lerden İş Etkisine

Birden fazla organizasyonda kanıtlanmış bir pattern, teknik trace’leri doğrudan iş metriklerine bağlamak. İşte incident response sırasında önemli zaman kazandıran bir yaklaşım:

interface IsEtkisiAnalizcisi {
  async traceEtkisiniAnalizeEt(traceId: string): Promise<EtkiRaporu> {
    const trace = await this.getTrace(traceId);
    const isKonteksti = this.extractBusinessContext(trace);
    
    return {
      // Teknik hikaye
      teknikAnlati: {
        girisNoktasi: trace.rootSpan.service,
        hataNoktalsi: this.findFailureSpan(trace),
        cascadeEtkisi: this.analyzeCascade(trace),
        performansDarbogazi: this.findSlowestPath(trace)
      },
      
      // İş hikayesi
      isAnlatisi: {
        kullaniciAmaci: isKonteksti.yolculukTuru, // "satin_alma", "gezinme", vb.
        riskAltindakiDeger: isKonteksti.sepetDegeri || isKonteksti.abonelikDegeri,
        kullaniciSegmenti: isKonteksti.kullaniciSeviyesi,
        donusumAsamasi: this.getConversionStage(trace),
        alternatifYollar: this.findAlternativeJourneys(isKonteksti)
      },
      
      // Birleşik hikaye
      etki: {
        anlikGelirKaybi: this.calculateImmediateLoss(isKonteksti),
        tahminKaybRiski: this.predictChurnImpact(trace, isKonteksti),
        markaHasarSkoru: this.assessBrandImpact(trace),
        kurtarmaAksiyonlari: this.generateRecoveryPlan(trace, isKonteksti)
      }
    };
  }
}

AI Destekli Pattern Tanıma

Stack boyunca OpenTelemetry uygulandıktan sonra, trace verisinde boğulma sorunu ortaya çıktı. AI destekli analiz ile yapılan deneyler, insanların sürekli kaçırdığı pattern’leri ortaya çıkardı.

Makine Öğrenimi ile Pattern Keşfi

Bu örnek, yaygın bir dağıtık sistem hata pattern’ini göstermektedir.

Yoğun trafik döneminde, sipariş işleme aralıklı olarak başarısız olmaya başladı. Başarısızlıklar rastgele görünüyordu - farklı servisler, farklı zamanlar, net bir pattern yok. 12 mikroservis boyunca manuel korelasyon 6 saat sürdü.

Sonra trace verisini bu prompt ile bir AI modeline besledik:

class AITraceAnalizcisi {
  async hataPatterniBul(traces: DistributedTrace[]): Promise<Analiz> {
    const prompt = `
      E-ticaret platformumuzdan bu distributed trace'leri analiz et:
      ${JSON.stringify(traces, null, 2)}
      
      Kontekst:
      - Sistem peak'te dakikada 10K sipariş işliyor
      - Sipariş işlemede 12 mikroservis var
      - Son deployment: envanter servisi v2.3.1 (3 saat önce)
      
      Bul:
      1. Başarısız işlemlerdeki ortak pattern'ler
      2. Dış olaylarla zamansal korelasyonlar
      3. Servis bağımlılık anomalileri
      4. Güven skoru ile kök neden hipotezi
      
      Hem teknik hem de iş pattern'lerini düşün.
    `;
    
    const analiz = await this.llm.analyze(prompt);
    
    // AI tamamen kaçırdığımız bir şey buldu
    return {
      pattern: "Hatalar cache invalidation'dan tam 47 saniye sonra oluşuyor",
      kokNeden: "Cache yenileme ve envanter güncellemeleri arasında race condition",
      guven: 0.94,
      kanit: [
        "Tüm hatalarda 47+/-2 saniye önce cache_invalidated event'i var",
        "Envanter servisi v2.3.1 async cache refresh getirdi",
        "Load balancer retry timeout 45 saniye"
      ],
      isEtkisi: "Sepet güncellemeleri sırasında yüksek değerli müşterileri etkiliyor",
      onerilenCozum: "Cache refresh operasyonlarında distributed lock uygula"
    };
  }
}

AI insanların kaçırdığı bir pattern fark etti: her hata bir cache invalidation event’inden tam 47 saniye sonra gerçekleşiyordu, ama sadece invalidation belirli bir load balancer retry penceresi sırasında olduğunda. Manuel keşif günler alırdı.

Context-Aware Alert Azaltma

Observability’de yaygın bir anti-pattern, alert yorgunluğuna yol açan aşırı instrumentation’dır. Şu senaryoyu düşünün: günde 500+ alert üreten bir sistem, ekiplerin kritik uyarıları görmezden gelmesine neden oluyor.

Bunu hikaye odaklı alerting ile nasıl düzelttiğimiz:

class HikayeOdakliAlerting {
  async alertDegerlendir(anomali: TraceAnomaly): Promise<AlertKarari> {
    // Sadece teknik metriklere alert verme
    if (!anomali.hasBusinessContext()) {
      return { alertVer: false, neden: "İş etkisi tespit edilmedi" };
    }
    
    // Tam hikayeyi oluştur
    const hikaye = await this.hikayeOlustur(anomali);
    
    // Sadece hikaye önemliyse alert ver
    const etkiSkoru = this.etkiSkoruHesapla({
      etkilenenKullanicilar: hikaye.kullaniciSayisi,
      riskAltindakiGelir: hikaye.potansiyelKayip,
      musteriSeviyesi: hikaye.birincilKullaniciSegmenti,
      gunSaati: hikaye.isSaatleriMi,
      benzerOlaylar: await this.benzerHikayelriBul(hikaye)
    });
    
    if (etkiSkoru < this.alertEsigi) {
      // Logla, ama kimseyi uyandırma
      await this.sonrakiAnalizIcinLogla(hikaye);
      return { alertVer: false, neden: "Etki eşiğinin altında" };
    }
    
    // Tüm hikayeyi anlatan bir alert oluştur
    return {
      alertVer: true,
      kanal: this.etkiIcinKanalBul(etkiSkoru),
      mesaj: this.anlatisalAlertOlustur(hikaye),
      onerilenAksiyonlar: await this.playbookOlustur(hikaye),
      otoRemediasyon: this.otoRemediasyonYapilabilirMi(hikaye)
    };
  }
  
  private anlatisalAlertOlustur(hikaye: OlayHikayesi): string {
    return `
      Olay Hikayesi:
      
      Ne oluyor: ${hikaye.ozet}
      Kim etkileniyor: ${hikaye.etkilenenKullanicilar} kullanıcı (${hikaye.kullaniciSegmentleri})
      İş etkisi: Saatte $${hikaye.gelirEtkisi} potansiyel kayıp
      
      Bozulan yolculuk:
      ${hikaye.bozulanYolculuk.map(adim => `→ ${adim}`).join('\n')}
      
      Kök neden (%${hikaye.guven} güvenle): ${hikaye.kokNeden}
      
      Benzer olay: ${hikaye.oncekiOlay?.ozet || 'Benzer olay bulunamadı'}
      
      Önerilen aksiyonlar:
      ${hikaye.onerilenAksiyonlar.map((aksiyon, i) => `${i+1}. ${aksiyon}`).join('\n')}
    `;
  }
}

Yatırım Analizi

Observability altyapı maliyetleri nadiren açık bir şekilde tartışılır. Dakikada 50K request işleyen bir sistem için yaklaşık ayda $5,500 yatırım bekleyin:

interface ObservabilityMaliyetleri {
  altyapi: {
    openTelemetryCollectors: 800,  // 3 instance, yüksek bellek
    dagitikIzleme: 1200,  // 30 günlük saklama ile Jaeger
    aiAnaliz: 400,  // Pattern analizi için GPT-4 API çağrıları
    korelasyonPlatformu: 2500,  // Grafana üzerine custom yapı
    olayOtomasyonu: 600  // Workflow otomasyon araçları
  },
  
  gizliMaliyetler: {
    muhendisZamani: "DevOps kapasitesinin %20'si",
    depoBuyumesi: "Günde 50GB trace verisi",
    networkOverhead: "%5-10 artan trafik",
    cpuOverhead: "Instrument edilmiş servis başına %2-5"
  },
  
  faydalar: {
    mttrAzaltma: "2.5 saat → 18 dakika",
    olayOnleme: "%60 daha az production sorunu",
    nodbetYasamKalitesi: "%70 daha az yanlış alert",
    gelirKoruma: "Yıllık $200K+ tasarruf"
  }
}

Pahalı mı? Evet. Ama önlenen tek bir yoğun trafik kesintisi tüm yılın altyapı maliyetini karşılayabilir.

Pratik Uygulama Stratejileri

Birden fazla observability uygulamasına dayanarak, işte kanıtlanmış stratejiler:

Tek Kullanıcı Yolculuğu

Her şeyi bir anda instrument etmeye çalışma. En değerli kullanıcı yolculuğunu seçin (örneğin checkout akışı) ve onu tamamen instrument edin:

# Her yerde değil, buradan başla
oncelik_instrumentasyon:
  faz_1:
    - kullanici_kayit_akisi
    - checkout_sureci
    - arama_satin_alma
  
  faz_2:
    - admin_operasyonlari
    - arka_plan_isleri
    - ucuncu_parti_entegrasyonlar
  
  faz_3:
    - dahili_araclar
    - raporlama_sistemleri
    - geri_kalan_her_sey

Para Kazandıran Sampling Stratejisi

Ölçekte sampling opsiyonel değil.

class AkillirSampling {
  sampleOraniAl(span: Span): number {
    // Hataları ve yüksek değerli işlemleri her zaman örnekle
    if (span.status === 'ERROR') return 1.0;
    if (span.attributes['kullanici.seviye'] === 'premium') return 1.0;
    if (span.attributes['is.deger'] > 1000) return 1.0;
    
    // İş saatlerine göre örnekle
    const saat = new Date().getHours();
    if (saat >= 9 && saat <= 17) return 0.1;  // İş saatlerinde %10
    
    // Sessiz dönemlerde minimal örnekleme
    return 0.01; // Gece %1
  }
}

Ekip Eğitimi Yatırımı

Teknik araçlar savaşın sadece yarısı. Diğer yarısı hikayelerle düşünen bir ekip oluşturmak:

interface EkipEgitimPlani {
  hafta1: "Dağıtık izleme temelleri",
  hafta2: "OpenTelemetry instrumentation workshop",
  hafta3: "Trace hikayelerini okuma ve yorumlama",
  hafta4: "Trace'leri iş metrikleri ile ilişkilendirme",
  hafta5: "AI destekli olay analizi",
  hafta6: "Hikaye anlatan custom dashboard'lar oluşturma",
  
  surekli: {
    aylikIncelemeler: "İlginç olayları birlikte analiz etme",
    dokumantasyonGunleri: "Herkes bir observability kılavuzu yazıyor",
    rotasyonProgrami: "Herkes bir hafta incident command yapıyor",
    bilgiPaylasimi: "Haftalık 'trace dedektifi' oturumları"
  }
}

Çıkarılan Dersler

Dashboard Mezarlığı

200+ dashboard oluşturduk. İnsanlar belki 10 tanesini kullandı. Ders? Dashboard’lar veri göstermemeli, hikaye anlatmalı. En çok kullanılan dashboard’umuz, bir kullanıcının landing’den satın almaya yolculuğunu gösteriyor, her adım iş metrikleri ile açıklanmış.

Korelasyon Atılımı

Oyun değiştirici daha fazla veri toplamak değildi - trace’leri iş olaylarına bağlamaktı. Trace’lerimize “campaign_id” ve “promo_code” eklemeye başladığımızda, aniden “En büyük pazarlama push’umuz sırasında dönüşüm neden düştü?” gibi soruları cevaplayabilir olduk.

AI Gerçeklik Kontrolü

AI destekli analiz inanılmaz derecede güçlü, ama sihir değil. Çöp trace’ler çöp içgörüler üretir. AI analizi gerçekten değerli hale gelmeden önce instrumentation’ımızı temizlemek için 3 ay harcadık. Ortalama çözüm süremiz %88 düştüğünde yatırım kendini ödedi.

Uygulama İyileştirmeleri

Observability uygulamalarını düşündüğümde şu kritik içgörüler ortaya çıkıyor:

Teknik metriklerle değil, iş sonuçları ile başla. Altyapı metrikleri yerine önce gelir üreten yolları instrument etmek daha hızlı ROI sağlar.
Nicelikten çok trace kalitesine yatırım yap. Her şey için vasat trace’lerden ziyade kritik yollar için mükemmel trace’lere sahip olmak daha iyi.
Araçlardan önce ekip kültürü oluştur. Ekip anlattığı hikayeleri nasıl okuyacağını bilmiyorsa, en iyi observability stack’i işe yaramaz.
İlk günden 10x büyüme için planla. Trace hacmimiz doğrusal değil, üstel olarak büyüdü. Ölçek için tasarla veya yeniden mimari vergisini sonra öde.

Gelecek Yönelimler

Endüstri trendleri bu gelişen pattern’leri gösteriyor:

Tahmine Dayalı Hikayeler

Observability sistemleri bize ne olduğunu söylemek yerine, ne olmak üzere olduğunu söyleyecek:

interface TahminselObservability {
  pattern: "Cache invalidation artışı tespit edildi",
  tahmin: "Sipariş işleme ~47 saniye içinde başarısız olacak",
  guven: 0.89,
  onleyiciAksiyon: "Envanter servisini proaktif olarak ölçekle",
  isEtkisi: "$45K terkedilmiş sepeti önle"
}

İş Öncelikli Instrumentation

Yeni nesil observability, iş KPI’ları ile başlayıp geriye doğru teknik metriklere çalışacak, tersi değil.

Otonom İyileştirme

Bunu zaten görüyoruz: sorunları sadece tespit edip teşhis koymakla kalmayıp, önceki olaylardan öğrenilen pattern’lere dayanarak düzelten sistemler.

Uygulama Adımları

Observability oyununuzu üst seviyeye taşımak istiyorsanız:

Bir kritik kullanıcı yolculuğu seçin ve OpenTelemetry ile tamamen instrument edin
Her span’a iş konteksti ekleyin - kullanıcı seviyesi, gelir etkisi, dönüşüm aşaması
İlk hikaye odaklı dashboard’unuzu oluşturun tam bir kullanıcı yolculuğu gösteren
AI analizi ile deney yapın - karmaşık analizden önce basit pattern eşleştirme ile başlayın
Ekip kültürü oluşturun sadece metrikler değil, observability hikayeleri etrafında

Kaynaklar

OpenTelemetry nedir? - opentelemetry.io - OpenTelemetry’nin trace, metrik ve logları oluşturma, toplama ve dışa aktarma için satıcıdan bağımsız bir framework olarak rolünün resmi açıklaması
Observability primer - opentelemetry.io - OpenTelemetry’nin observability tanımı ve üç telemetri sinyali olarak trace, metrik ve loglar arasındaki ilişki
Dağıtık Sistemlerin İzlenmesi - Google SRE Kitabı - Dört altın sinyal ve etkili production izlemesi için ilkeler üzerine Google SRE ekibinin rehberi
Site Reliability Engineering Kitapları - sre.google - İzleme, uyarı, olay yönetimi ve güvenilirlik mühendisliği uygulamalarını kapsayan Google’ın ücretsiz SRE kitapları
Observability 2.0 - Honeycomb - Charity Majors’ın metrik dashboard’larının ötesine geçerek yüksek kardinaliteli, olay odaklı observability’ye geçiş argümanı

Hikaye odaklı observability en çok, olayların veriye yansıyan iş sonuçları doğurduğu sistemlerde işe yarıyor (gelir düşüşleri, dönüşüm kayıpları, kullanıcı davranışıyla korelasyon gösteren SLO ihlalleri). Yalnızca dahili olan, iş metriği bağlanabilecek bir yüzü olmayan servislerde ya da temel alarmların henüz kurulmadığı ekiplerde bu yaklaşım yeterince karşılık vermiyor. Her span’a iş bağlamı eklenerek uçtan uca enstrümente edilmiş tek bir kullanıcı yolculuğu, geri kalanının üzerine inşa edebileceği somut başlangıç noktasıdır.

İlgili yazılar

OpenTelemetry Temelleri: Modern Observability için Başlangıç Rehberi

Pratik örnekler, yaygın hatalar ve terminoloji sözlüğü ile OpenTelemetry'nin trace, metric ve log sistemlerini kapsayan başlangıç rehberi.

opentelemetryobservabilitydistributed-tracing +5

5 Kasım 2025

Ölçekte Bildirim Teslimatı Hatalarını Debug Etmek

Yüksek riskli üretim ortamlarında bildirim sistemi hatalarından edinilen gerçek dünya debugging teknikleri, izleme stratejileri ve dersler

debuggingmonitoringproduction +4

8 Eylül 2025

AWS Fargate Sorun Giderme: ENI Limitleri, Timeout, Debugging

Fargate'i ölçekte çalıştırırken karşılaşılan production olayları. Memory leak'ler, ENI limitleri, subnet arızaları ve işe yarayan debug teknikleri.

awsfargatedebugging +4

4 Eylül 2025

AWS Lambda Production Monitoring ve Debugging: Savaşta Test Edilmiş Stratejiler

Gerçek incident'lardan AWS Lambda monitoring ve debugging: CloudWatch metrikleri, X-Ray tracing, structured logging ve etkili alerting pattern'leri.

aws-lambdaserverlessmonitoring +5

4 Eylül 2025

Suçsuz Postmortem: Bir Model ve Kopyala-Yapıştır Şablon

Suçlu aramak yerine sistemi düzelten bir suçsuz postmortem modeli, kopyalanabilir bir şablon ve bireysel sorumluluğun hâlâ geçerli olduğu sınır.

engineering-cultureincident-responsepsychological-safety +4

21 Haziran 2026