Transactional Outbox Pattern: Dağıtık Sistemlerde Güvenilir Event Publishing
Transactional Outbox Pattern'in dağıtık sistemlerdeki dual-write problemini nasıl çözdüğünü, PostgreSQL, DynamoDB ve CDC araçlarıyla pratik implementasyonlarını öğren.
Özet
Dual-write problemi, çalıştığım hemen her event-driven sistemde karşıma çıktı. Database'i güncelleyip aynı anda event yayınlaman gerektiğinde imkansız bir seçimle karşılaşırsın: işler ters gittiğinde hangi operasyon başarısız olacak? Transactional Outbox Pattern, her iki operasyonu da aynı database'e tek bir transaction içinde yazarak kanıtlanmış bir çözüm sunuyor. Ardından ayrı bir process eventleri güvenilir şekilde publish ediyor. Bu yazıda polling publishers, Change Data Capture (CDC) ve AWS serverless pattern'lerini kullanarak pratik implementasyonları inceliyoruz.
Dual-Write Problemi
Sürekli karşılaştığım bir senaryo: bir order servisi, siparişi database'e kaydetmeli ve OrderCreated eventi yayınlamalı. Basit yaklaşım şöyle görünüyor:
Ne yanlış gidebilir? Her şey.
Hata Senaryosu 1: Database başarılı, event yayını başarısız
- Message broker'a network timeout
- Message broker geçici olarak down
- Servisin database write'dan sonra crash olması
- Sonuç: Sipariş database'de var ama inventory servisi eventi hiç almıyor. Stok rezerve edilmiyor.
Hata Senaryosu 2: Event yayını başarılı, database başarısız
- Database write constraint ihlal ediyor
- Deadlock nedeniyle transaction rollback
- Database bağlantısı kopuyor
- Sonuç: Inventory servisi eventi alıyor ve stok rezerve ediyor ama sipariş yok. Data tutarsızlığı.
Neden Two-Phase Commit (2PC) Kullanmıyoruz?
"Distributed transaction'lar kullanamaz mıyız?" diye sorabilirsin. Teknik olarak evet ama trade-off'lar pratikte kullanımı zorlaştırıyor:
- Performance overhead: Sistemler arası transaction koordinasyonu ciddi latency ekliyor
- Azaltılmış availability: Herhangi bir katılımcı down olursa tüm operasyon başarısız
- Complexity: XA transaction'ları doğru implement etmek zor
- Sınırlı destek: Birçok message broker 2PC desteklemiyor
- Coupling: Microservices bağımsızlık prensiplerini ihlal ediyor
Dağıtık sistemlerle çalışırken öğrendiğim şey: distributed transaction'lardan kaçınmak, onları güvenilir çalıştırmaya çalışmaktan daha iyi.
Outbox Pattern'i Anlamak
Transactional Outbox Pattern, dual-write problemini basit bir içgörüyle çözüyor: iki ayrı sisteme yazmak yerine (database + message broker), aynı database'deki iki tabloya tek bir ACID transaction içinde yaz.
Temel Bileşenler
- Outbox Table: Yayınlanacak eventleri saklıyor, business datanla aynı database'de yaşıyor
- Business Transaction: Hem business tablolara hem outbox'a yazan tek ACID transaction
- Message Relay: Ayrı bir process outbox'u okuyor ve message broker'a publish ediyor
- Idempotent Consumer'lar: Downstream servisler duplicate eventleri doğru handle ediyor
Nasıl Çalışıyor
Anahtar içgörü: ya hem business data hem event commit ediliyor, ya da hiçbiri edilmiyor. Bu, state değişikliklerin ve event yayınının arasında atomicity garanti ediyor.
Implementasyon Yaklaşımı 1: Polling Publisher
En basit yaklaşım outbox table'ı periyodik olarak poll ediyor. Pratikte işe yarayan şey:
Temel Implementasyon
Producer: Outbox'a Yaz
Publisher: Poll ve Publish
FOR UPDATE SKIP LOCKED clause kritik: birden fazla publisher instance'ının aynı eventleri process etmesini önleyerek horizontal scaling sağlıyor.
Polling Ne Zaman Kullanılmalı
Artıları:
- Implement etmesi ve anlaması basit
- Ek infrastructure gerekmez
- Herhangi bir database ile çalışır
- SQL sorguları ile debug kolay
Eksileri:
- Polling database load ekliyor
- Latency poll interval'e bağlı (tipik 5-10 saniye)
- Yüksek volume'ler için CDC'den daha az verimli
Polling kullan:
- Düşük-orta event volume'lerinde (< 1000 event/dakika)
- Hızlıca başlamak için
- Basit mimariler için
- Database'in CDC desteği yoksa
Implementasyon Yaklaşımı 2: Change Data Capture (CDC)
Production sistemlerde scale için CDC, database transaction log'unu doğrudan monitor ederek polling overhead'ini ortadan kaldırıyor.
CDC Nasıl Çalışıyor
Outbox table'ı poll etmek yerine, Debezium gibi CDC araçları database'in Write-Ahead Log'unu (PostgreSQL) veya Binary Log'unu (MySQL) monitor ediyor. Bir outbox eventi yazıldığında, CDC aracı bunu tespit edip otomatik olarak message broker'a publish ediyor.
PostgreSQL + Debezium Setup
Debezium Konfigürasyonu
Producer Kodu (Polling ile Aynı)
CDC'nin güzelliği: uygulama kodun değişmiyor. Hala aynı transaction içinde outbox table'a yazıyorsun. Debezium publishing'i handle ediyor.
CDC Ne Zaman Kullanılmalı
Artıları:
- Gerçek zamana yakın event publishing (< 1 saniye)
- Minimal database overhead (WAL okuyor, table'ları değil)
- Yüksek volume'lere scale ediyor (100K+ event/saniye)
- Partition başına event sırasını koruyor
Eksileri:
- Karmaşık infrastructure (Kafka Connect, Debezium)
- Operasyonel uzmanlık gerektiriyor
- Database-specific setup (WAL konfigürasyonu)
- Serverless seçeneklerden daha pahalı
CDC kullan:
- Yüksek event volume'lerinde (> 1000 event/dakika)
- Düşük latency gereksinimleri (< 1 saniye)
- Scale'deki production sistemlerde
- Zaten Kafka ecosystem kullanıyorsan
AWS Implementasyonu: DynamoDB + EventBridge Pipes
AWS, DynamoDB Streams ve EventBridge Pipes kullanarak serverless bir outbox implementasyonu sunuyor. AWS-native mimariler için tercih ettiğim yaklaşım bu.
Mimari
Implementasyon
Infrastructure as Code (AWS CDK)
Bu Yaklaşım Neden İşe Yarıyor
Publishing için Lambda kodu yok: EventBridge Pipes otomatik olarak DynamoDB Streams'i okuyup EventBridge'e publish ediyor. Bu şunları ortadan kaldırıyor:
- Cold start latency
- Publisher için Lambda billing
- Relay için maintain edilecek kod
Built-in reliability: Pipes retry logic, dead-letter queue ve monitoring'i out-of-the-box sunuyor.
Cost efficiency: Sadece işlenen eventler için ödeme yapıyorsun, idle publisher infrastructure için değil.
Maliyet Analizi
Ayda 10 milyon event işleyen bir sistem için:
- DynamoDB Streams: Ücretsiz (DynamoDB'ye dahil)
- EventBridge Pipes: 4.00/ay
- EventBridge Event Bus: 10.00/ay
- Toplam: 10M event için ~$14/ay
Lambda polling yaklaşımıyla karşılaştır:
- Lambda invocation'lar: 43,200/ay (her dakika) = ~$0.01
- Lambda duration: 100ms ortalama × 43,200 = ~$0.50
- RDS sorguları: Database'e load ekliyor
- Toplam: Benzer maliyet ama daha yüksek operasyonel complexity
Ordering ve Idempotency Yönetimi
Ordering Garantileri
Outbox pattern partition başına sıralamayı koruyor, tüm eventlerde global sıralama değil.
DynamoDB Streams için aggregate ID'yi partition key olarak kullan:
Inbox Pattern: Consumer-Side Idempotency
Outbox pattern at-least-once delivery garanti ediyor, yani eventler birden fazla kez deliver edilebilir. Consumer'lar duplicate'leri handle etmeli.
Inbox Pattern idempotent processing sağlıyor:
Inbox table schema:
Tam Pattern: Outbox + Inbox
Performance Değerlendirmeleri
Database Performance
Outbox table büyümesi: Temizlik yapılmazsa outbox table sonsuza kadar büyüyor. Bunun ciddi performance degradation'a neden olduğunu gördüm.
Index optimizasyonu: Partial index sadece yayınlanmamış eventleri index'liyor, yer tasarrufu sağlıyor:
Polling Publisher Tuning
Poll interval trade-off'ları:
- 1 saniye: Düşük latency, yüksek database load
- 5 saniye: Dengeli (çoğu durum için önerilen)
- 10+ saniye: Düşük overhead, yüksek latency
Batch size:
CDC Performance
Debezium'un yetiştiğinden emin olmak için replication lag'i monitor et:
Lag büyürse WAL dosyaların birikirve disk dolabilir. Bununla gerçekten uğraştığım operasyonel bir concern.
Yaygın Tuzaklar ve Çözümler
Tuzak 1: Sınırsız Table Büyümesi
Problem: Outbox table sonsuza kadar büyüyor, sorgular yavaşlıyor.
Çözüm: Publisher'ında otomatik temizlik implement et:
Tuzak 2: Message Relay Başarısızlığı Fark Edilmiyor
Problem: Publisher crash oluyor, eventler publish edilmeden biribiyor.
Çözüm: Outbox yaş metriklerini monitor et:
Tuzak 3: CDC Replication Slot Disk Dolduruyor
Problem: Debezium connector down oluyor, PostgreSQL WAL biriyor.
Çözüm: Replication slot'ları monitor et ve retention limit'leri belirle:
Bir slot 5 dakikadan fazla inactive ise alert ver, publisher failure göstergesi.
Diğer Pattern'lerle Karşılaştırma
Outbox vs. Event Sourcing
Temel fark: Event sourcing'de eventler kalıcı kayıt. Outbox'ta eventler bir iletişim mekanizması.
Outbox vs. Saga Pattern
Outbox pattern saga pattern'i tamamlıyor. Saga'ya katılan her servis içinde outbox kullan:
Karar Çerçevesi
Doğru implementasyonu seçmek için bu çerçeveyi kullan:
Polling seç:
- Event volume < 1000/dakika
- Hızlı başlamak için
- Basit mimari tercih ediliyorsa
- Database CDC desteklemiyorsa
CDC seç:
- Event volume > 1000/dakika
- < 1 saniye latency gerekiyorsa
- Scale'deki production sistemlerde
- Zaten Kafka kullanıyorsan
DynamoDB + EventBridge seç:
- AWS üzerinde geliştiriyorsan
- Serverless mimari istiyorsan
- Minimal operasyonel overhead isteniyorsa
- Orta volume'ler için cost-effective
Production Readiness Checklist
Outbox pattern'i production'a deploy etmeden önce:
- Cleanup stratejisi: Published eventlerin otomatik silinmesi
- Monitoring: Outbox age, backlog size, publisher health
- Alerting: Lag threshold'u aşıyor, publisher failure'ları
- Idempotency: Inbox pattern veya idempotency key'leri implement edildi
- Ordering: Event sıralaması için partition key stratejisi
- Dead Letter Queue: Başarısız eventler inceleme için yönlendiriliyor
- Schema versioning: Event payload versioning stratejisi
- Load testing: Beklenen throughput'ta doğrulandı
- Runbook: Recovery prosedürleri dokümante edildi
- Backup stratejisi: Outbox ve inbox table'ları için
Ana Çıkarımlar
Birden fazla sistemde outbox pattern ile çalışırken öğrendiğim dersler:
-
Basit başla: Polling publisher'larla başla. Performance gerektiğinde CDC'ye geç.
-
Lag'i agresif monitor et: Event oluşturma ve publishing arasındaki süre en önemli metrik. Bu büyüyorsa sistemin bozuluyor.
-
Idempotency pazarlık konusu değil: At-least-once delivery duplicate'ler olacağı anlamına geliyor. Bunu ilk günden tasarla.
-
Acımasızca temizle: Sınırsız büyüyen outbox table'lar sonunda production sorunlarına neden oluyor. Otomatik temizlik yap.
-
Akıllıca partition'la: Partition içinde event sıralaması garanti. Aggregate ID'leri partition key olarak kullan.
-
AWS kolaylaştırıyor: DynamoDB + EventBridge Pipes minimal kodla production-ready outbox sağlıyor.
Outbox pattern sadece teori değil; güvenilir event-driven sistemler inşa etmek için güvendiğim, savaş testinden geçmiş dual-write probleminin çözümü. Burada gösterilen implementasyonlar, kendi gereksinimlerine uyarlayabileceğin production-ready pattern'ler.