بدأ العطل في المنطقة الشرقية (US-EAST-1) من خوادم AWS حوالي الساعة 10:00 صباحًا بتوقيت غرينتش، حيث سجّلت الشركة معدلات خطأ مرتفعة في خدماتها الأساسية مثل DynamoDB وCloudFront.
وتسبّب ذلك في توقف الاتصال بالعديد من التطبيقات والمنصات المعتمدة على هذه البنية.
أبرز الخدمات المتأثرة
وفقًا لموقع Downdetector، فإن قائمة المتأثرين بالعطل تشمل:
- Amazon (المتجر الرئيسي وخدمة Alexa).
- AWS Cloud (الخوادم السحابية).
- Snapchat (تعطّل إرسال واستقبال الصور مؤقتًا).
- Fortnite وClash Royale (مشاكل في تسجيل الدخول والاتصال بالسيرفر).
- Canva وSignal وRing.
- خدمات مالية مثل Coinbase وVenmo.
ردّ أمازون
صرحت شركة Amazon Web Services عبر صفحتها الرسمية لمتابعة حالة الخوادم بأنها:
“تواجه خدماتنا في منطقة US-EAST-1 مشكلات في الاتصال بـ DynamoDB API ونعمل على حلها في أسرع وقت ممكن.”
وأضافت أن العطل ناتج عن مشكلة في نظام أسماء النطاقات (DNS) مما تسبب في فشل الاستجابة من بعض الخدمات.
التأثير العالمي
العطل أثّر على مستخدمين في:
- الولايات المتحدة 🇺🇸
- أوروبا 🇪🇺
- الشرق الأوسط
- آسيا والمحيط الهادئ
وتداول آلاف المستخدمين على X (تويتر سابقًا) وReddit شكاوى عن توقف الخدمات السحابية والألعاب.
تحليل تقني
الخلل يسلّط الضوء على اعتماد العالم على مزود واحد للبنية التحتية السحابية، حيث إن أكثر من 30٪ من خدمات الإنترنت العالمية تعمل على AWS. أي خلل بسيط في إحدى المناطق (خصوصًا US-EAST-1) يُحدث “تأثير دومينو” يوقف مئات المواقع في وقت واحد.
ما هي الأسباب التي وردت رسمياً؟
- AWS قالت: «We can confirm significant error rates for requests made to the DynamoDB endpoint in the US-EAST-1 Region.» datacenterdynamics.com+1
- أيضاً: «Based on our investigation, the issue appears to be related to DNS resolution of the DynamoDB API endpoint in US-EAST-1.» The Independent+1
- لم يتم حتى الآن تأكيد أن الأمر كان هجوم سيبراني — التقارير تشير أنه خلل داخلي. The Independent+1
ما الدروس المستفادة؟
- الاعتماد على مزوّد واحد ينطوي على مخاطر كبيرة: يُفضّل أن يكون هناك خطة بديلة أو تعدد مزوّدي سحابية.
- توزيع البنية التحتية جغرافياً: الاعتماد بكثافة على منطقة واحدة (مثل US-EAST-1) يعرض لخطر كبير.
- اختبارات أعطال (disaster-recovery) فعلية: يجب أن تُجرى بانتظام لتضمن أن التطبيقات تستطيع التبديل لما إذا حدث خلل.
- الشفافية والتواصل مع المستخدمين: في الأعطال الكبيرة، الاتصالات السريعة والمباشرة مع المستخدمين مهمة لتقليل الضرر على السمعة.
- أهمية التصميم وفق الـ “فشل-أولاً” (fail-first) أو “فشل-آمن” (fail-safe): تصميم الأنظمة بحيث تسعى لأن تبقى متاحة ولو بفقدان أدنى أداء، وليس أن تتْوقف بالكامل.
عطل اليوم في AWS ليس مجرد “عطل تقني” عابر، بل تذكير صارخ بأن كثيرًا من الخدمات الرقمية في العالم تعتمد على عدد قليل من البنى التحتية الضخمة. عندما تتعطّل إحدى هذه البنى، التأثير لا يكون محلياً، بل عابراً للقارات. لذلك، سواء كنت مستخدمًا عاديًا أو تدير شركة أو تطبيقًا، من الحكمة أن تنظر إلى كيفية تحمُّل الفشل (resilience) بقدر ما تنظر إلى الأداء.
