ل انقطاع جديد هائل في شبكة Cloudflare تسببت العاصفة مجددًا في توقف الإنترنت صباح الجمعة، مما تسبب في مشاكل في الوصول إلى مختلف أنواع المواقع والتطبيقات في العديد من الدول. في إسبانيا وبقية دول أوروبا القارية، بدأت أولى علاماتها بالظهور منتصف الصباح، حيث واجه العديد من المستخدمين صفحاتٍ تعذر تحميلها أو رسائل خطأ.
الشركة الأمريكية التي تعمل كـ عنصر أساسي في أمن وتوزيع المحتوى لملايين المواقعوأكدت أن الحادث يؤثر في المقام الأول على لوحة التحكم الخاصة بها (لوحة أجهزة القياس) وواجهات برمجة التطبيقات، على الرغم من أن النطاق الحقيقي كان محسوسًا إلى حد كبير خارج أدواتها الداخلية: منصات التصميم، ومكالمات الفيديو، وألعاب الفيديو onlineظلت الخدمات المصرفية الرقمية والخدمات المؤسسية المستخدمة على نطاق واسع غير متاحة جزئيًا أو كليًا لجزء كبير من الصباح.
خطأ في لوحة التحكم وواجهات برمجة التطبيقات يتسبب في حدوث أخطاء جسيمة

لا سيجون الصفحة الرسمية لحالة Cloudflareالمشكلة نشأت في لوحة أجهزة القياس وفي واجهات برمجة التطبيقات (APIs) التي يستخدمها عملاؤها لإدارة التكوينات وقواعد الأمان والخدمات المتقدمة. عند تعطل هذه المكونات، لا تقتصر المعاناة على المهام الإدارية فحسب؛ بل قد تترتب على ذلك آثار متتالية على مواقع الويب نفسها التي تعتمد على المنصة.
بدءًا من الساعة 08:56 بالتوقيت العالمي المنسق (09:56 في البر الرئيسي لإسبانيا)، بدأت Cloudflare في التحذير من أنها التحقيق في المشكلات في لوحة التحكم وواجهات برمجة التطبيقات المرتبطة بهاوبعد دقائق، في الساعة 09:09 بالتوقيت العالمي المنسق، كانت الشركة لا تزال تحقق، وبعد فترة وجيزة أعلنت أن لقد تم تطبيق التصحيح بالفعل، الدخول في مرحلة من المراقبة الدقيقة للتحقق من فعالية العلاج.
وفي الوقت نفسه، في الممارسة العملية، بدأت آلاف المواقع الإلكترونية في إظهار أخطاء مثل "خطأ الخادم الداخلي 500" أو "البوابة سيئة"بالإضافة إلى الصفحات الفارغة وأوقات التحميل الطويلة. للتحقق من زمن الوصول أثناء الانقطاع، قد يكون من المفيد مراجعة الدليل على كيفية قياس ping في Windows 11بالنسبة للعديد من المستخدمين، كان الشعور هو نفسه: من البنوك online حتى أدوات عملهم المعتادة، وجزء كبير من حياتهم الرقمية، قد تم تجميدها لعدة ساعات.
تعترف Cloudflare نفسها بأن العملاء الذين يستخدمونها بشكل مكثف لوحة أجهزة القياس ويمكن لواجهات برمجة التطبيقات أن ترى الطلبات الفاشلة أو البيانات المفقودة أو الاستجابات غير المكتملةوعلى الرغم من إصرار الشركة على أن شبكة توصيل المحتوى (CDN) وطبقة الأمان التي تحمي مواقع الويب على حافة الشبكة لا تزال تعمل، فإن الحقيقة هي أن تجربة المستخدمين النهائيين كانت مختلفة تمامًا، مع انقطاعات واسعة النطاق في الخدمات التي تعتمد على بنيتها التحتية.
التأثير في إسبانيا وأوروبا: من الخدمات المصرفية الرقمية إلى ألعاب الفيديو online

وقد تم الشعور بتأثيرات السقوط بقوة في إسبانيا وبقية أوروباحيث يعتمد جزء كبير من العمل والأنشطة الترفيهية الصباحية على الخدمات الموزعة عبر Cloudflare. أدوات منتشرة في كل مكان في الحياة اليومية مثل كانفا أو زووم وقد عانوا من مشاكل خطيرة في الوصول، مما أدى إلى تعقيد العمل عن بعد والاجتماعات الافتراضية في الشركات والمراكز التعليمية.
في مجال الترفيه، يستخدم المستخدمون لعبة online مثل Fortnite وValorant وLeague of Legends وأبلغ متجر Epic Games عن أخطاء في الاتصال، وشاشات تحميل لا تنتهي، أو حتى تعذر تسجيل الدخول. في بعض الحالات، أدت المشكلة إلى طرد اللاعبين من المباريات أو عدم قدرتهم على استئناف الجلسات الجارية، وهو أمر محبط بشكل خاص للاعبين الذين لديهم بطولات أو مباريات مصنفة مجدولة.
لم يسلم القطاع المالي أيضًا. فهناك العديد من الكيانات العاملة في إسبانيا، مثل CaixaBank أو Bankinterلقد شهدوا تعطل قنواتهم الرقمية، حيث لم يتمكن المستخدمون من الوصول إلى حساباتهم أو إجراء التحويلات أو التحقق من المعاملات. ورغم أن الانقطاعات كانت متقطعة وقصيرة نسبيًا في بعض الحالات، الشعور بالضعف في التعاملات المصرفية online لقد تم طرحه مرة أخرى.
بوابات مثل Downdetectorشهدت الشركات المتخصصة في الرصد الفوري للحوادث التي يبلغ عنها المستخدمون ارتفاعًا حادًا في البلاغات منذ الصباح الباكر. وتغطي التقارير كل شيء، من منصات التواصل الاجتماعي والمحتوى إلى خدمات الدفع وأدوات الشركات، مما يؤكد أن كان لانقطاع خدمة Cloudflare نطاق عالمي وعبر قطاعات اقتصادية متعددة.
في بعض الأحيان، توجد صفحات مخصصة خصيصًا لمراقبة انقطاع الخدمة. لقد واجهوا مشكلة في التحميلهذا يُعزز فكرة أن المشكلة تكمن في البنية التحتية السحابية المشتركة، وليس في عطلٍ مُنعزل في خدمة مُحددة. فعندما تتأثر الطبقة الوسيطة التي تدعم جزءًا كبيرًا من حركة مرور الشبكة، تنتشر الآثار بسرعة كبيرة.
تزامنًا مع مهام الصيانة في مراكز البيانات في الولايات المتحدة

وقد تزامن الحادث مع أعمال الصيانة المجدولة بواسطة Cloudflare في عدد من مراكز بياناتها بالولايات المتحدة، وخاصةً في ديترويت وشيكاغو. ووفقًا للشركة، كان من الممكن أن تؤدي هذه العمليات الفنية، التي جرت بين الساعة 07:00 و13:00 بالتوقيت العالمي المنسق، إلى إعادة توجيه حركة البيانات وزيادة زمن الوصول للمستخدمين في المناطق المتضررة.
حذرت Cloudflare سابقًا من أنه أثناء فترات الصيانة هذه، قد تكون بعض واجهات الشبكة خارج الخدمة مؤقتًاأجبر هذا عملاء الربط المباشر على الاعتماد على أنظمة التحويل التلقائي أو مسارات بديلة. مع ذلك، لم تؤكد الشركة بعد ما إذا كان هذا العمل مرتبطًا مباشرةً بانقطاع الخدمة العالمي اليوم، أم أنه مجرد صدفة مؤسفة في التوقيت.
ما يبدو واضحًا هو أن الجمع بين مهام الصيانة و حادث في الخدمات المركزية مثل لوحة أجهزة القياس وواجهات برمجة التطبيقات أدى هذا إلى وضعٍ حساسٍ للغاية. فأخطاء التكوين البسيطة أو مشاكل انتشار التغييرات قد يكون لها تأثيرٌ أكبر بكثير عندما تتزامن مع إعادة توجيه حركة المرور وتغييرات في بنية الشبكة.
على بوابة الحالة الخاصة بها، تحتفظ Cloudflare بقنوات معلومات نشطة للعملاء والمستخدمين، مع تنبيهات دورية حول تطور الأعطالوتصر الشركة على أن "الإصلاح تم نشره بالفعل" وأن النظام "تحت المراقبة"، لذا، من الناحية النظرية، من المفترض أن يعود الوضع إلى طبيعته تدريجيًا على مدار اليوم.
ومع ذلك، في ذروة التأثير، كان العديد من المستخدمين لا يزالون يواجهون الصفحات التي لم تتمكن من إكمال التحميل أو رسائل الخطأ المتقطعةيعد هذا السلوك غير المنتظم نموذجيًا عادةً عندما يتم تطبيق حل لم يتم الانتهاء من نشره بعد عبر الشبكة بأكملها، أو عندما يتم تحديث مناطق مختلفة من العالم بمعدلات مختلفة.
السقوط المتكرر: ظلال الإخفاقات الأخيرة
هذه الحلقة لم تأتِ من فراغ. قبل أقل من شهر، نوفمبر 18كانت شركة Cloudflare قد عانت من انقطاع عالمي آخر، أدى إلى توقف خدمات واسعة الانتشار مثل X (المعروف سابقًا باسم Twitter)، وChatGPT، وCanva، والعديد من مواقع الشركات والتجارة الإلكترونية. استمر هذا الانقطاع قرابة أربع ساعات، وأثار جدلًا واسعًا حول موثوقية كبار مزودي الخدمات السحابية.
وفي تلك المناسبة، أوضحت الشركة نفسها أن المشكلة نشأت بعد تغيير في أذونات قاعدة البيانات الداخليةأدى هذا التعديل البسيط إلى قيام النظام تلقائيًا بإنشاء آلاف الإدخالات الإضافية في ملف تستخدمه وحدة الإدارة. البوتات، المسؤول عن التمييز بين حركة المستخدم المشروعة والزيارات الآلية.
مع نمو هذا الملف، أصبح مضاعفة حجمها حتى تجاوزت الحد الذي يمكن للبرنامج التعامل معه المسؤول عن توجيه حركة المرور. كانت النتيجة انهيارًا داخليًا أدى إلى 500 خطأ، وبطء شديد، ورسائل "تحدي" تطلب فتح تحديات أمنية في التحديات.cloudflare.comوبعبارة أخرى، كان الأمر مجرد فشل في البرنامج والتكوين، دون أي أثر للهجمات الإلكترونية الخارجية.
ووصف مسؤولو الشركة، بما في ذلك الرئيس التنفيذي ماثيو برينس، المشكلة في ذلك الوقت بأنها "خطأ داخلي في البرنامج" وأكدوا عدم وجود أي دليل على نشاط خبيث. ومع ذلك، فإن حقيقة حدوثه في غضون أسابيع قليلة فشل كبير آخر يترك ملايين المستخدمين بدون خدمة مرة أخرى. بدأ الأمر يثير القلق بين عملاء الأعمال والإدارات العامة.
ويشير محللو الصناعة إلى أن، عندما تقع حادثتان خطيرتان في مثل هذه الفترة القصيرة من الزمنمن البديهي التساؤل عما إذا كانت عمليات ضمان الجودة والاختبار ونشر التغييرات دقيقة بما يكفي. فإلى جانب السبب الفني المحدد لكل انقطاع، يتمحور القلق حول مدى كفاءة Cloudflare في إدارة عبئها المتزايد على البنية التحتية العالمية للإنترنت.
الاعتماد على السحابة ونقطة الفشل الوحيدة
على مر السنين، أصبحت Cloudflare أحد ركائز الويب الحديثةتُقدّم خدماتها لشبكات توصيل المحتوى (CDN)، والأمان، وتخفيف هجمات حجب الخدمة الموزعة (DDoS)، وتحسين الأداء في حوالي 20% من مواقع الويب حول العالم، وفقًا لتقديرات القطاع. هذا يعني أنه عندما تواجه الشركة مشكلة، يتفاقم تأثيرها على الفور تقريبًا.
هذه ليست حالة معزولة. ففي الأشهر الأخيرة، تم الإبلاغ عن حوادث خطيرة على منصات سحابية رئيسية أخرى مثل AWS (خدمات الويب من أمازون) أو Microsoft Azureأدت هذه الانقطاعات إلى توقف تطبيقات الأعمال والمرافق الرقمية والأدوات الحيوية عن العمل في عدة دول. ويسلط كل واحد من هذه الأعطال الضوء على الاعتماد الهائل على مجموعة صغيرة من مقدمي الخدمة.
في الممارسة العملية، بالنسبة للمستخدم العادي، عندما يمر أحد هؤلاء العمالقة بيوم سيء، يبدو أن نصف الإنترنت قد توقف عن العملمن وسائل التواصل الاجتماعي إلى المتاجر onlineمن خدمات الذكاء الاصطناعي التوليدية ومنصات الدفع إلى أنظمة الأعمال الداخلية، يعتمد كل شيء على البنى التحتية التي غالبًا ما تمر دون أن يلاحظها أحد حتى تفشل.
ويشير خبراء البنية التحتية إلى أن هذه المركزية تعني نقطة فشل واحدة بالنسبة للعديد من الخدمات الحيوية، قد يُؤدي خطأ واحد في التكوين، أو تحديث خاطئ، أو مشكلة في الشبكة سيئة الإدارة إلى عواقب وخيمة. ويُصبح هذا الخطر بالغ الأهمية بشكل خاص في قطاعات مثل الخدمات المصرفية، والمرافق الرقمية، والتعليم عبر الإنترنت.
وفي إسبانيا، كانت الأصوات القادمة من قطاعي التكنولوجيا والمالية قد حذرت بالفعل من أن تركيز العديد من الخدمات في عدد قليل من السحب هذا يستلزم إعادة النظر في استراتيجيات المرونة والنسخ الاحتياطي وخطط الطوارئ. انقطاع الخدمة لفترات طويلة لن يؤثر فقط على حياة المستخدمين اليومية، بل سيؤثر أيضًا على العمليات الداخلية للشركات والهيئات الحكومية.
ما هو المعروف عن استجابة Cloudflare وما الذي يمكن للمستخدمين فعله؟
في الوقت الحالي، تقول Cloudflare أن تم تنفيذ إصلاح ويحافظ على مراقبة مكثفة من شبكتهم للتأكد من حل الحادثة بالكامل. يتم تحديث بوابة الحالة الخاصة بهم برسائل توضح تقدم التحقيق وحالة لوحة أجهزة القياس، واجهات برمجة التطبيقات وبقية الخدمات المعنية.
وتصر الشركة على أن لم يتم تأكيد السبب الجذري رسميًا بعد فيما يتعلق بانقطاع اليوم، يواصل الفريق الفني تحليل السجلات والتغييرات الأخيرة والتفاعلات المحتملة مع مهام الصيانة الجارية. وحتى اكتمال هذا التحليل، لن يُعرف ما إذا كانت هذه مشكلة مشابهة لتلك التي حدثت في 18 نوفمبر/تشرين الثاني أم عطلًا من نوع مختلف.
من وجهة نظر المستخدم، هناك القليل مما يمكن فعله بعد ذلك انتظر حتى يتم استعادة الخدماتويوصي بعض الخبراء، في هذه الحالات، بعدم الانشغال بتحديث الصفحات باستمرار أو فرض عمليات على التطبيقات الحرجة، لأنه في خضم حادث خطير قد تكون استجابات النظام غير متوقعة أو قد تولد أخطاء إضافية.
كما أشار مدير DevOps الذي تمت استشارته قبل بضعة أسابيع في أعقاب الانقطاع السابق، عندما ينهار مزود من هذا النوع، أصبحت أجهزتنا أشبه بـ "مثقالة الورق" للعديد من المهام اليومية: الإجراءات الإدارية، والتسوق، والدراسة، والعمل عن بعد، والألعاب online... كل شيء، بطريقة أو بأخرى، يمر عبر مراكز البيانات وشبكات توزيع المحتوى.
في عالم الأعمال، غالبًا ما تستخدم فرق تكنولوجيا المعلومات خطط الطوارئ تشمل هذه التدابير تفعيل بنى تحتية بديلة، وتغييرات في نظام أسماء النطاقات (DNS)، وإعادة توجيه حركة البيانات، أو حتى خفض مستويات الخدمة للحفاظ على الوظائف الأساسية على الأقل. ومع ذلك، لا تمتلك جميع الشركات الموارد أو بنى الحوسبة السحابية المتعددة التي تُمكّنها من الاستجابة السريعة لانقطاعات بهذا الحجم.
مع بدء تعافي الخدمات وعودة النشاط ببطء إلى طبيعته، فإن ما حدث اليوم مع Cloudflare بمثابة تذكير إلى أي مدى تعتمد الشبكة العالمية على عدد قليل من الجهات الفاعلة؟ وكيف يمكن لفشل في طبقة تبدو غير مرئية أن يؤثر على الحياة اليومية لملايين الأشخاص في غضون دقائق.
