Web ve Mobil için Asenkron API Desenleri: Görüşlü Bir Varsayılan
Tek bir backend üzerinde çalışan web SPA ve mobil uygulama için uzun süreli işlere dair tek bir varsayılan desen ve onu geçersiz kılmanız gereken durumlar.
Somut Problem
Çoğu ürün API'si düz senkron istek/yanıt ile başlar. Login için, bir kullanıcı kaydını okumak için, basit bir arama için çalışır. Sonra bir uçnokta gerçek iş yapmak zorunda kalır.
Altı ila on saniye süren bir ödeme yetkilendirmesini düşünün. Bu kadar uzun bir spinner checkout dönüşümünü düşürür; kullanıcılar butona tekrar basar ve altta bir idempotency katmanı olmadığında backend ikinci bir ücretlendirmeyi kabul eder.
Ya da iki dakikalık bir transcode tetikleyen mobil bir yüklemeyi düşünün. Kullanıcı uygulamayı arka plana atar, hücresel soket operatör NAT'ı ya da işletim sistemi suspend'i nedeniyle ölür, iş dakikalar sonra başarıyla tamamlanır ve istemci bunu asla öğrenmediği için arayüz hâlâ "yükleniyor" spinner'ı gösterir. Webhook güdümlü sonuçlar (mobil oturum kapandıktan sonra backend'e düşen bir ödeme sağlayıcı geri bildirimi) aynı biçimdedir: backend bilir; istemci bilmez.
Bunlar uç durumlar değildir. Güvenilmez mobil bağlantılar üzerinden uzun süreli işlerin normal hata biçimidir. Çözüm daha fazla polling değildir. Çözüm, her operasyon için doğru koordinasyon desenini seçmek ve altına bir idempotency katmanı koymaktır.
Varsayılan
Aynı backend üzerinde bir web uygulaması ve bir mobil uygulama çalıştıran çoğu ürün ekibi için, uzun süreli operasyonların uzun kuyruğunu tek bir desen kapsar. Önce bunu deneyin; yalnızca belirli bir kısıt başka bir şey gerektirdiğinde geçersiz kılın.
- İstemci
POST /resource'u birIdempotency-Keybaşlığı ile gönderir. Sunucu202 Accepted, birLocation: /jobs/{id}başlığı ve gövdede birjobIddöner. - İstemci SSE üzerinden
GET /jobs/{id}/events'e abone olur. Bağlantı koptuğunda tarayıcı (veya RN kütüphanesi)Last-Event-IDile otomatik olarak yeniden bağlanır ve sunucu kaçırılan olayları tekrar oynatır. - Uzun bir arka planın ardından uygulama yeniden açıldığında, istemci yeniden abone olmadan önce terminal durumu okumak için bir kez
GET /jobs/{id}çağırır.
Tek bir sunucu API'si üç istemci yolunu kapsar: sekmesini izleyen web kullanıcısı, ön planda kalan mobil kullanıcı ve uygulamayı arka plana atıp saatler sonra geri dönen mobil kullanıcı. Aşağıdaki sıra, varsayılanın baştan sona çizilmiş hâlidir.
Çalıştırılabilir Örnek
Aşağıda gönder uç noktası artı SSE akışının küçük bir Node taslağı vardır. Yer için hata işleme kırpılmıştır. Kopyalamaya değen şekil üç dallı idempotency cache'idir: eşleşme cache'lenmiş 202'yi döner, uyumsuzluk 422 döner, yeni istek işi yaratır.
Burada iki şey ekmeğini kazanıyor. Idempotency-Key cache'i, bir ağ hıçkırığından sonraki retry'ın yeni bir iş oluşturmak yerine aynı iş kimliğini yeniden kullanmasını sağlar. Ayrı GET /jobs/{id} uç noktası uzlaştırma yoludur. Terminal olayını kaçıran bir mobil istemcinin hâlâ son durumu öğrenmek için temiz bir yolu vardır.
Tarayıcı İstemcisi
Tarayıcı tarafı kısadır çünkü EventSource zor kısımları yapar.
React Native Notu
React Native EventSource ile gelmez. Yaygın iki yol react-native-sse kütüphanesi veya bir ReadableStream polyfill ile fetch'ten akışı kendiniz parse etmektir. Parse etmek zor değildir; her kayıt event: artı data: artı bir boş satırdır. Kütüphane çoğu ekip için yeterlidir.
Yeniden açılışta yalnızca akışa güvenmeyin. GET /jobs/{id} çağırın ve dönen terminal durumu ne ise onu render edin. Yalnızca SSE akışına güvenirseniz, son olayı düşüren bir arka plan öldürmesi arayüzünüzü takılı bırakır.
Varsayılanı Çalıştıran Hata Modları
Idempotency Key'ler, Varsayılanın İlk Sözleşmesi
Mobil istemcinin çağırdığı her mutating uç noktanın bir Idempotency-Key'e ihtiyacı vardır. İstemci her mantıksal operasyon için bir UUID üretir ve retry'da yeniden kullanır. Sunucu istek parmak izini ve yanıtı yaklaşık 24 saat cache'ler. Idempotency-Key başlığı için IETF taslağı birkaç revizyondan geçti ve Stripe bu deseni production'da uzun süredir çalıştırıyor. Farklı bir anahtar adı icat etmek için bir neden yok.
Sunucu key başına üç şey saklar: gövde parmak izi, yanıt gövdesi ve bir durum. Aynı key ve eşleşen parmak izi ile bir retry gelirse cache'lenmiş yanıtı döndürün. Parmak izi farklıysa bu bir istemci hatasıdır. Stripe 400 ile birlikte idempotency_error kodu döner; 409 Conflict ve 422 Unprocessable Entity da makul seçimlerdir. Birini seçin ve belgeleyin.
Jitter ile Retry
İstemci retry'ları jitter ile exponential backoff'a ihtiyaç duyar. Çok sayıda istemci tam olarak 1s, 2s, 4s, 8s'de retry ederse senkronize olurlar. Sunucu toparlanmak için hiç sessiz an bulamaz. Timeout ve backoff üzerine AWS Builders' Library yazısı çoğu ekibin atıf yaptığı referanstır. Mevcut backoff penceresi üzerinde full jitter iyi bir varsayılandır.
Reconnect Sırasında Kaçırılan Olayların Uzlaştırılması
SSE bağlantısı düşüp geri geldiğinde istemcinin ilk sinyali Last-Event-ID'dir. Sunucu olayları o noktadan itibaren tekrar oynatır. Uzun bir arka planın ardından uygulama yeniden açıldığında ise tek bir GET /jobs/{id} yetkili cevaptır. İş bittiyse terminal durumu, hâlâ çalışıyorsa mevcut ilerlemeyi döner. Ancak ondan sonra istemci yeniden abone olmayı dener.
Uzlaştırmayı transport katmanında inşa etmeyin. İş katmanında, alanınızın zaten sahip olduğu bir correlation ID'ye göre inşa edin. "Sipariş 9f3c tamamlandı" altı saatlik bir uygulama öldürmesi arasında düzgünce uzlaşır. "Socket 0x42 payload 17" uzlaşmaz.
SSE Buffer'lama ve Proxy Tuzakları
SSE neredeyse her proxy'den geçer, ama şaşırtıcı sayıda proxy yanıtı varsayılan olarak buffer'lar. Olaylar bir yumak halinde ya da hiç gelmez. Nginx, yanıtta X-Accel-Buffering: no'ya ihtiyaç duyar. Diğer proxy'lerin benzer düğmeleri vardır. SSE uç noktanızın önünde CDN varsa, text/event-stream için yanıt sıkıştırmasını kapatın ve bağlantının tüm gövde gelene kadar tutulmadığını doğrulayın. Kullanıcılarınızın gerçekten oturduğu ağlardan test edin, sadece ofisinizden değil.
Varsayılanı Ne Zaman Geçersiz Kılmalı
Varsayılan, uzun süreli operasyonların çoğunu kapsar. Beş durum bir geçersiz kılmayı hak eder.
Bozuk bir mobil ağda p99'da yaklaşık bir saniyeden kısa süren işlemler. Düz senkron istek/yanıt. İş kimliği yok, SSE yok, koordinasyon yok. Sınır laptopunuzda gördüğünüz değildir; yüzde 30 paket kaybı olan LTE'deki kullanıcının gördüğüdür. Burada gereğinden fazla kurmak size pil ve kod harcatır, karşılığında bir şey getirmez.
Çift yönlü, yüksek frekanslı istemci yazmaları. WebSocket. Sohbet, işbirlikçi imleçler, çok oyunculu girdi. Radyo uyanık kalır, Wi-Fi'dan LTE'ye geçiş bağlantıyı koparır ve mobil arka plan politikaları soketleri hızla öldürür. Heartbeat'ler, jitter'lı reconnect ve sunucu tarafında bir oturum resume token'ı inşa edeceksiniz. Bunu ilk günden bütçeleyin ve SSE'nin bugün kapsadığı bir problemde "gelecek esnekliği" için WebSocket'e uzanmayın.
Kurumsal bir proxy SSE'yi soyuyor. Long polling yedektir. İstemci, sunucunun N saniyeye kadar tutabileceği bir GET gönderir; sunucu veri geldiğinde veya timeout'ta flush eder; istemci hemen yeniden bağlanır. Her olay için bir roundtrip'e mal olur, multiplexing yoktur, ama her proxy bunu geçirir.
Saatlerce süren, her adımda retry ve timeout gerektiren çok adımlı iş akışı. Varsayılan API'nin arkasındaki düz kuyruğun yerini Temporal gibi bir workflow motoru alır. Retry'ları, telafileri ve adımdan adıma değişen timeout'ları bir mesaj kuyruğunun üzerinde yeniden kurmaya çalışırsanız iş akışı orkestrasyonunu kötü şekilde icat edersiniz. Varsayılanın POST ve GET /jobs/{id} uç noktaları aynı kalır; yalnızca worker'ın şekli değişir.
İstemci bekleme olmaksızın saf backend decoupling. Varsayılan API'nin arkasında, görünmez şekilde SQS veya BullMQ gibi bir mesaj kuyruğu. İstemci yine POST eder ve bir iş kimliği ile 202 alır; ancak SSE akışı tek bir completed olayından fazlasını hiç taşımayabilir ve bazı durumlarda istemci hiç abone olmaz.
Webhook'lar tek bir not hak eder, bir bölüm değil. Yalnızca sunucudan sunucuyadır. Bir webhook, web veya mobil istemci için asla tek başına sonuç kanalı değildir, çünkü istemci bir sunucu değildir. Bir sağlayıcı webhook uç noktanızı çağırdığında imzayı doğrulayın, olayı kalıcı hale getirin, ACK edin ve sonra sonucu kullanıcının SSE akışına köprüleyin veya bir sonraki GET /jobs/{id}'nin terminal durumu döndürmesi için iş deposunu işaretleyin.
Karar Çerçevesi
Aşağıdaki akış şeması varsayılandan başlar ve geçersiz kılmalara dallanır.
Geçersiz kılmalardan önce bir güvence: sunucu yaklaşık 15 saniyeden uzun sürerse, hücresel bağlantıdaki mobil istemciler handler'ınız dönmeden bağlantıyı yitirme eğilimindedir. İşletim sistemi sabit bir istek tavanı uygulamaz; ama operatör timeout'ları ve uygulama suspend'i, uzun tutulan istekleri rutin olarak kırar. Ön planda mobil istemcinin açık tuttuğu her şey için yaklaşık 15 saniyeyi pratik bir tavan olarak kabul edin. Ondan ötesinde isteseniz de istemeseniz de varsayılan topraklarındasınız.
Yaygın Tuzaklar
Aşağıdaki hatalar, async'i sync'in üzerine cıvatalayan hemen her projede karşımıza çıkar.
- 30 saniyelik bir senkron uç noktayı "muhtemelen iyi" olarak kabul etmek. Değildir. Mobil LTE timeout'ları laptop Wi-Fi toleransınızdan daha kısadır.
- Idempotency key olmadan POST'u retry etmek. Duplicate ödemeler ve duplicate siparişler bir hafta içinde gelir.
- WebSocket reconnect'in "kendi kendine çalışacağını" varsaymak. Ağ geçişleri arasında çalışmaz.
- ACK etmeden önce işi senkron yapan webhook handler'ları. Sağlayıcı retry eder. İşi iki kere yaparsınız.
- Yanıt buffering'i açık bir reverse proxy arkasında SSE. Olaylar bir yumak halinde ya da hiç gelmez. Nginx'in
X-Accel-Buffering: no'ya ihtiyacı vardır; diğer proxy'lerin benzer düğmeleri vardır. - Happy path için ayarlanmış polling aralığı, outage yolu için değil. Saniyede bir polling, çok sayıda kullanıcı ve on dakikalık bir outage ile çarpıldığında kendi kendine yaratılmış bir hizmet reddi saldırısına döner.
- Dead-letter kuyruğu yok. Bir zehirli mesaj tüm worker havuzunu tüketir.
- Correlation ID iş katmanı yerine transport katmanında icat edilmiş. Kullanıcı uygulamayı saatler sonra yeniden açtığında uzlaştırmak imkânsızdır.
- Webhook imza doğrulamasını atlamak. Her büyük sağlayıcı sunar; kullanmak tek satırlık bir değişikliktir.
Sahadaki İki Dürüst Anlaşmazlık
İki nokta deneyimli uygulayıcıları böler. Birini kazanan ilan etmek yerine adlarını söylemekte fayda var.
Birincisi mobil pilde WebSocket'e karşı SSE. Bazı kaynaklar, yeniden bağlanmanın uyanma maliyetinden kaçındıkları için WebSocket'lerin bağlandıktan sonra daha verimli olduğunu iddia ediyor. Diğerleri, radyonun daha yüksek güç durumunda kalması nedeniyle WebSocket'lerin daha fazla pil tükettiğini bildiriyor. Dürüst cevap mesaj sıklığına bağlıdır. Seyrek trafik keepalive'lı SSE'yi destekler. Yoğun trafik WebSocket'i destekler. Kullanıcılarınızın kullandığı cihazlarda ve ağlarda ölçün.
İkincisi Node'da uzun süreli işler için kuyruk seçimi. BullMQ savunucuları, Node ekipleri için doğru varsayılan olduğunu iddia ediyor. Temporal savunucuları, işin retry'ları, timeout'ları ve birden fazla adımı varsa bir kuyruk kütüphanesinin yanlış soyutlama olduğunu ve üzerine iş akışı orkestrasyonunu kötü şekilde yeniden kuracağınızı iddia ediyor. Her iki görüş de farklı iş şekilleri için doğrudur. Soru işinizin şeklidir, kütüphanenin popülerliği değil.
Kaynaklar
- MDN: Using Server-Sent Events - EventSource ve Last-Event-ID semantiği ile SSE için temel tarayıcı API'si.
- MDN: Idempotency-Key header - İstemci tarafından üretilen key deseni için kanonik referans.
- IETF draft-ietf-httpapi-idempotency-key-header - Idempotency-Key HTTP başlığı için güncel Internet-Draft.
- Stripe: Idempotent requests - İstek parmak izi artı 24 saatlik cache için production planı.
- Stripe: Webhooks - İmzalama, retry'lar ve telafi edilemez olayların yönetimi.
- RFC 6455: The WebSocket Protocol - Temel WebSocket spesifikasyonu.
- WebSocket.org: WebSocket vs HTTP, SSE, MQTT, WebRTC, gRPC - Transport seçimleri için yan yana karşılaştırma matrisi.
- AWS Builders' Library: Timeouts, retries ve backoff with jitter - Retry fırtınası önlemesi için standart referans.
- AWS SQS: Visibility timeout - SQS'te en az bir kez semantiği ve yeniden teslim davranışı.
- AWS SQS: Dead-letter queues - DLQ yapılandırması ile zehirli mesajları işleme.
- Chrome Developers: Streaming requests with the fetch API - Tarayıcı destek uyarılarıyla ReadableStream yükleme ve indirme desenleri.
- React Native Networking docs - Mobilde polyfill tuzakları dâhil WebSocket ve fetch semantiği.
- Temporal: In lieu of a queuing solution - Temporal ekibinden dayanıklı iş akışı ve mesaj kuyruğu çerçevelemesi.
- RxDB: WebSockets vs SSE vs Long-Polling vs WebRTC vs WebTransport - Pratik ödünleşimlerle protokol karşılaştırması.
- Apple: URLSession background configuration - Uzun süreli transferler için iOS arka plan yükleme ve indirme semantiği.