ينفذ FlipServer سعيًا حقيقيًا عالي التوافر لخمس تسع أنظمة مهمة في السحابة العامة

التوفر العالي (HA) في السحابات العامة

الإتاحة العالية (HA) هي قدرة النظام على العمل بشكل مستمر دون أن يفشل لفترة زمنية محددة. تعمل HA لضمان أن النظام يلبي مستوى الأداء التشغيلي المتفق عليه. في تكنولوجيا المعلومات (IT) ، يُعرف معيار التوافر المنتشر على نطاق واسع والذي يصعب تحقيقه باسم التوافر الخماسي ، مما يعني أن النظام أو المنتج متاح 99.999٪ من الوقت.

يجب أن تكون الأنظمة عالية التوفر مصممة تصميماً جيداً وأن يتم اختبارها بدقة قبل استخدامها. يتطلب التخطيط لأحد هذه الأنظمة تلبية جميع المكونات لمعيار التوافر المطلوب. تلعب قدرات النسخ الاحتياطي للبيانات وتجاوز الفشل أدوارًا مهمة في ضمان أن تلبي أنظمة HA أهداف الإتاحة الخاصة بها. يجب على مصممي النظام أيضًا إيلاء اهتمام وثيق لتخزين البيانات وتكنولوجيا الوصول التي يستخدمونها.

كيف يعمل التوافر العالي؟

من المستحيل أن تكون الأنظمة متاحة بنسبة 100٪ من الوقت ، لذلك تسعى أنظمة التوافر العالية الحقيقية عمومًا إلى خمس تسعات كمعيار للأداء التشغيلي.

يتم استخدام المبادئ الثلاثة التالية عند تصميم أنظمة HA لضمان الإتاحة العالية:

  • نقاط الفشل الفردية. نقطة الفشل الواحدة هي أحد المكونات التي قد تؤدي إلى فشل النظام بأكمله إذا فشل. إذا كان لدى الشركة خادم واحد يقوم بتشغيل تطبيق ، فإن هذا الخادم يمثل نقطة فشل واحدة. إذا فشل هذا الخادم ، فلن يكون التطبيق متاحًا.
  • كروس موثوق. من المهم أيضًا بناء التكرار في هذه الأنظمة. يتيح التكرار عنصر النسخ الاحتياطي لتولي مهمة أحد المكونات الفاشلة. عند حدوث ذلك ، من الضروري ضمان الانتقال الموثوق به أو الفشل ، وهو عملية التبديل من المكون X إلى المكون Y دون فقد البيانات أو التأثير على الأداء.
  • قابلية الكشف عن الفشل. يجب أن تكون حالات الفشل مرئية ، ومن الناحية المثالية ، تحتوي الأنظمة على أتمتة مدمجة للتعامل مع الفشل من تلقاء نفسها. يجب أن تكون هناك أيضًا آليات مدمجة لتجنب فشل الأسباب الشائعة ، حيث يفشل نظامان أو أكثر أو مكونات في وقت واحد ، على الأرجح من نفس السبب.

لضمان الإتاحة العالية عند وصول العديد من المستخدمين إلى النظام ، تصبح موازنة التحميل ضرورية. يوزع موازنة التحميل أحمال العمل تلقائيًا على موارد النظام ، مثل إرسال طلبات مختلفة للبيانات إلى خدمات مختلفة مستضافة في بنية سحابية مختلطة. يقرر موازن التحميل أي مورد النظام هو الأكثر قدرة على التعامل بكفاءة مع أعباء العمل. يضمن استخدام موازنات الأحمال المتعددة للقيام بذلك عدم إرهاق مورد واحد.

توجد وحدات الخدمة في نظام HA في مجموعات ويتم تنظيمها في بنية متدرجة للاستجابة للطلبات من موازنات التحميل. في حالة فشل خادم واحد في نظام المجموعة ، يمكن لخادم منسوخ في نظام مجموعة آخر معالجة حمل العمل المخصص للخادم الفاشل. يتيح هذا النوع من التكرار تجاوز الفشل حيث يتولى المكون الثانوي مهمة المكون الأساسي عند فشل المكون الأول ، مع الحد الأدنى من التأثير على الأداء.

كلما كان النظام أكثر تعقيدًا ، زادت صعوبة ضمان التوافر العالي نظرًا لوجود المزيد من نقاط الفشل في نظام معقد.

لماذا التوفر العالي مهم؟

غالبًا ما تكون الأنظمة التي يجب تشغيلها وتشغيلها معظم الوقت هي الأنظمة التي تؤثر على صحة الناس ورفاههم الاقتصادي والحصول على الغذاء والمأوى وأساسيات الحياة الأخرى. بمعنى آخر ، هي أنظمة أو مكونات سيكون لها تأثير شديد على الأعمال التجارية أو حياة الأشخاص إذا كانت أقل من مستوى معين من الأداء التشغيلي.

مثال: كما ذكرنا سابقًا ، تعد المركبات ذاتية القيادة مرشحة واضحة لأنظمة HA. على سبيل المثال ، إذا حدث خلل في جهاز الاستشعار الأمامي للسيارة ذاتية القيادة وأخطأ جانب السيارة ذات 18 عجلة على الطريق ، فسوف تتحطم السيارة. على الرغم من أن السيارة كانت تعمل في هذا السيناريو ، إلا أن فشل أحد مكوناتها في تلبية المستوى الضروري من الأداء التشغيلي أدى إلى وقوع حادث خطير على الأرجح.

كيف يتم قياس التوافر

يمكن قياس التوافر بالنسبة إلى نظام يعمل بنسبة 100٪ أو لا يفشل أبدًا - مما يعني أنه لا يوجد أي انقطاع. عادةً ، يتم حساب نسبة التوفر على النحو التالي:
التوفر = (دقائق في الشهر - دقائق توقف) * 100 / دقيقة في الشهر

ثلاثة مقاييس تستخدم لقياس مدى التوفر تشمل ما يلي:
متوسط الوقت بين الفشل (MTBF) هو الوقت المتوقع بين فشلين للنظام المحدد.
متوسط وقت التوقف (MDT) هو متوسط الوقت الذي لا يعمل فيه النظام.
هدف وقت الاسترداد (RTO)، المعروف أيضًا باسم الوقت المقدر للإصلاح ، هو إجمالي الوقت الذي سيستغرقه انقطاع التيار المخطط له أو التعافي من الانقطاع غير المخطط له.

يمكن استخدام هذه المقاييس للأنظمة الداخلية أو بواسطة مزودي الخدمة لتعهد العملاء بمستوى معين من الخدمة على النحو المنصوص عليه في اتفاقية مستوى الخدمة (SLA). اتفاقيات مستوى الخدمة هي عقود تحدد نسبة التوفر التي يمكن للعملاء توقعها من نظام أو خدمة.

تخضع مقاييس التوفر للتفسير فيما يتعلق بما يشكل توفر النظام أو الخدمة للمستخدم النهائي. حتى إذا استمرت الأنظمة في العمل جزئيًا ، فقد يعتبرها المستخدمون غير قابلة للاستخدام بناءً على مشكلات الأداء. على الرغم من هذا المستوى من الذاتية ، يتم إضفاء الطابع الرسمي على مقاييس التوافر بشكل ملموس في اتفاقيات مستوى الخدمة ، والتي يكون مزود الخدمة أو النظام مسؤولاً عن إرضائها.

إذا كان النظام أو اتفاقية مستوى الخدمة يوفر توفرًا بنسبة 99.999٪ ، فيمكن للمستخدم النهائي توقع عدم توفر الخدمة للمقادير التالية من الوقت: لتوفير السياق ، إذا التزمت الشركة بالمعيار الثلاثي (99.9٪) ، فسيكون هناك حوالي 8 ساعات و 45 دقيقة من تعطل النظام في السنة. يعد التوقف عن العمل بمعيار التسعين أكثر دراماتيكية ؛ التوافر بنسبة 99٪ يعني ما يزيد قليلاً عن ثلاثة أيام من التعطل في السنة.

كيفية تحقيق التوافر العالي

الخطوات الست لتحقيق التوافر العالي هي كما يلي:

  • صمم النظام مع وضع HA في الاعتبار. الهدف من تصميم نظام HA هو إنشاء نظام يلتزم باتفاقيات الأداء مع تقليل التكلفة والتعقيد. يجب التخلص من نقاط الفشل مع توفير التكرار ، حسب الحاجة.
  • حدد مقاييس النجاح. من الضروري تحديد مستوى التوفر الذي يحتاجه النظام والمقاييس التي سيتم استخدامها لقياسه. يقوم مقدمو الخدمات بإشراك العملاء في هذه العملية من خلال اتفاقية مستوى الخدمة.
  • انشر الجهاز. يجب أن تكون الأجهزة مرنة وتوازن بين الجودة والفعالية من حيث التكلفة. الأجهزة القابلة للتبديل أثناء التشغيل والتوصيل السريع مفيدة بشكل خاص في أنظمة HA لأنه لا يلزم إيقاف تشغيل الجهاز عند التبديل أو عند توصيل المكونات أو فصلها.
  • اختبر نظام تجاوز الفشل. بمجرد تشغيل النظام ، يجب فحص نظام تجاوز الفشل للتأكد من أنه جاهز لتولي المسؤولية في حالة حدوث عطل. يجب اختبار الطلبات وإعادة اختبارها مع مرور الوقت ، ويجب وضع جدول الاختبار.
  • مراقبة النظام. يجب تتبع أداء النظام باستخدام المقاييس والمراقبة. يجب تسجيل أي تباين عن القاعدة وتقييمه لتحديد كيفية تأثر النظام والتعديلات المطلوبة.
  • يقيم. حلل البيانات التي تم جمعها من المراقبة ، ثم ابحث عن طرق لتحسين النظام. استمر في ضمان التوفر مع تغير الظروف وتطور النظام.

التوافر العالي والتسامح مع الخطأ

مثل DR ، يساعد التسامح مع الخطأ في ضمان الإتاحة العالية. التسامح مع الخطأ هو قدرة النظام على تحمل وتوقع الأخطاء في وظائف النظام والاستجابة تلقائيًا في حالة حدوث خطأ. يتطلب النظام المتسامح مع الأخطاء التكرار لتقليل الاضطراب في حالة تعطل الأجهزة.

للحصول على التكرار ، يجب على مؤسسات تكنولوجيا المعلومات اتباع استراتيجية N + 1 أو N + 2 أو 2N أو 2N + 1. يمثل N عدد الخوادم ، على سبيل المثال ، اللازمة للحفاظ على تشغيل النظام. يتطلب نموذج N + 1 جميع الخوادم اللازمة لتشغيل النظام بالإضافة إلى خادم إضافي. يتطلب نموذج 2N ضعف عدد الخوادم التي يحتاجها النظام عادة. يعني أسلوب 2N + 1 ضعف عدد الخوادم التي تحتاجها بالإضافة إلى خادم آخر. تضمن هذه الاستراتيجيات منح المكونات المهمة للمهمة نسخة احتياطية واحدة على الأقل.

من الممكن أن يكون النظام متاحًا بدرجة عالية ولكنه غير متسامح مع الخطأ. على سبيل المثال ، إذا واجه نظام HA مشكلة في استضافة جهاز ظاهري على خادم في مجموعة من العقد ولكن النظام لا يتسامح مع الأخطاء ، فقد يحاول المشرف إعادة تشغيل الجهاز الظاهري في نفس نظام المجموعة المضيف. من المحتمل أن يكون هذا ناجحًا إذا كانت المشكلة قائمة على البرامج. ومع ذلك ، إذا كانت المشكلة متعلقة بأجهزة الكتلة ، فلن تؤدي إعادة تشغيلها في نفس المجموعة إلى حل المشكلة ، لأن الجهاز الظاهري مستضاف في نفس المجموعة المعطلة.

من المحتمل أن يكون لنهج التسامح مع الخطأ في نفس الموقف إستراتيجية N + 1 مطبقة ، وسوف يعيد تشغيل الجهاز الظاهري على خادم مختلف في مجموعة مختلفة. من المرجح أن يضمن التسامح مع الخطأ عدم حدوث أي أعطال. ستذهب إستراتيجية DR خطوة إلى الأمام لضمان وجود نسخة من النظام بأكمله في مكان آخر للاستخدام في حالة وقوع كارثة.

أفضل ممارسات التوافر العالي

يجب أن يكون النظام المتاح للغاية قادرًا على التعافي بسرعة من أي نوع من حالات الفشل لتقليل الانقطاعات للمستخدم النهائي. تشمل أفضل ممارسات الإتاحة العالية ما يلي:

  • تخلص من نقاط الفشل الفردية أو أي عقدة من شأنها أن تؤثر على النظام إذا أصبح غير فعال.
  • تأكد من نسخ جميع الأنظمة والبيانات احتياطيًا لاسترداد سريع وسهل.
  • استخدم موازنة التحميل لتوزيع حركة مرور التطبيقات والشبكة عبر الخوادم أو الأجهزة الأخرى. مثال على موازن التحميل الزائد هو HAProxy.
  • المراقبة المستمرة لصحة خوادم قواعد البيانات الخلفية.
  • توزيع الموارد في مناطق جغرافية مختلفة في حالة انقطاع التيار الكهربائي أو الكوارث الطبيعية.
  • تنفيذ تجاوز الفشل الموثوق به. فيما يتعلق بالتخزين ، تعد مجموعة متكررة من الأقراص المستقلة (RAID) أو شبكة منطقة التخزين (SAN) من الأساليب الشائعة.
  • قم بإعداد نظام يكتشف الأعطال بمجرد حدوثها.
  • تصميم أجزاء النظام لتوفر عاليًا واختبار وظائفها قبل التنفيذ.

توافر عالية والسحابة

كما ذكر أعلاه ، هناك عنصر شخصي للإتاحة العالية. اعتمادًا على النظام ، سيختلف مقدار وقت التشغيل اللازم. في الحوسبة السحابية ، يكون مستوى الخدمة متغيرًا بشكل خاص.

توفر خدمة FlipServe Cloud توافرًا بنسبة 99.9٪ على الأقل لخدمات HA الخاصة بهم ؛ مؤخرًا ، وهناك بعض التطبيقات التي يمكننا من خلالها توفير نسبة 99.99٪ يبقى السؤال ، ما هي التطبيقات التي تحتاج إلى هذا المستوى من التوافر؟