هندسة موثوقية الموقع - دورة 65000 فرك. من Slurm، التدريب، تاريخ 1 يناير 2024.
Miscellanea / / November 29, 2023
للناس
يمكن لمهندس SRE أن يكون إما مهندس عمليات أو مطورًا. خلال الدورة المكثفة، سوف تتدرب كثيرًا، ويمكن تكييف المهارات والمعرفة التي اكتسبتها وتنفيذها في أي مجال.
عمل
تحل SRE نفس المشكلات التي تحلها DevOps: فهي تزيد من سرعة إصدار الميزات الجديدة وتحسن العمليات داخل الفريق. لكن المهمة الرئيسية لـ SRE هي ضمان استقرار وموثوقية الخدمات، باستثناء المواقف التي يشتكي فيها المستخدمون من الأعطال، ويكون لدى المهندسين جداول زمنية خضراء.
نحن نبني:
يتكون موقع التدريب الخاص بنا من عدة خدمات صغيرة. فهو يجمع بيانات عن العروض والأسعار والمقاعد المتاحة من جميع دور السينما، ويعرض إعلانات الأفلام، ويتيح لك اختيار السينما والعرض والقاعة والمكان، وحجز التذاكر ودفع ثمنها.
سنقوم بصياغة مؤشرات SLO وSLI وSLA لهذا الموقع، وتطوير البنية والبنية التحتية التي تدعمها، وإعداد المراقبة والتنبيه.
تؤدي أخطاء المطورين وفشل البنية التحتية وتدفق الزوار وهجمات DoS إلى تفاقم عمليات مستوى الخدمة.
نقوم بتحليل الاستقرار وميزانية الأخطاء وممارسة الاختبار وإدارة الانقطاعات والحمل التشغيلي.
كان هناك حادث. خدمة معالجة الدفع معطلة. كيفية التصرف لاستعادة الوظائف في أقصر وقت ممكن؟
نقوم بتنظيم عمل فريق الاستجابة للطوارئ: إشراك الزملاء، وإخطار أصحاب المصلحة، وتحديد الأولويات. نحن نتدرب على العمل تحت الضغط في ظروف زمنية محدودة للغاية.
دعونا نلقي نظرة على النهج المتبع في الموقع من وجهة نظر SRE. نقوم بتحليل الحوادث (أسباب حدوثها، والتقدم المحرز في القضاء عليها). نحن نتخذ قرارات لمنع حدوثها بشكل أكبر: نقوم بتحسين المراقبة، وتغيير البنية، ونهج التطوير والتشغيل، واللوائح. نحن نقوم بأتمتة العمليات.
— لدينا العشرات من البنى التحتية المبنية ومئات من خطوط أنابيب CI/CD المكتوبة،
— مدير Kubernetes المعتمد،
— مؤلف العديد من الدورات التدريبية حول Kubernetes وDevOps،
— متحدث منتظم في مؤتمرات تكنولوجيا المعلومات الروسية والدولية.
اليوم الأول: جلسة انطلاق AMA
سنناقش أهداف وغايات الدورة، وسنخبرك أيضًا ما هو SRE ونقسمها إلى فرق.
افتتاح موضوعين نظريين:
الموضوع الأول: المراقبة
- لماذا هناك حاجة للمراقبة؟
- النسب المئوية
- تنبيه
- إمكانية الملاحظة
الموضوع الثاني: نظرية SRE
- سلو، سلي، جيش تحرير السودان
- متانة
- ميزانية خطأ
اليوم الثاني: تحليل الممارسات والحالات
يمارس: إنشاء لوحة تحكم أساسية وإعداد التنبيهات اللازمة
يمارس: إضافة تنبيهات SLO/SLI + إلى لوحة التحكم
يمارس: تحميل النظام الأول
حل الحالة 1: التبعية النهائية.
في النظام الكبير، هناك العديد من الخدمات المترابطة، ولا تعمل دائمًا بشكل جيد. إنه أمر مزعج بشكل خاص عندما تكون خدمتك في حالة جيدة، لكن الخدمة المجاورة التي تعتمد عليها تنخفض بشكل دوري.
سيجد المشروع التعليمي نفسه في هذه الظروف بالضبط، وسوف تتأكد من أنه لا يزال ينتج الجودة على أعلى مستوى ممكن.
اليوم 3: جلسة AMA، الإجابة على الأسئلة
يتم فتح الوصول إلى الوحدة النظرية الثانية:
حل المشاكل المتعلقة بالبيئة والهندسة المعمارية
الوحدة الثانية مبنية على حل حالتين: التبعية الأولية والمشكلات المعمارية. سيتحدث المتحدثون عن إدارة الحوادث، وقواعد فرقة الإطفاء، والعمل مع تشريح الجثث وتقديم النماذج التي يمكنك استخدامها في فريقك.
الموضوع الثالث: إدارة الحوادث
- هندسة المرونة
- كيف يتم تشكيل فرقة الإطفاء
- ما مدى فعالية فريقك في الحادث؟
- 7 قواعد لقائد الحادث
- 5 قواعد لرجل الاطفاء
- HiPPO - رأي الشخص الأعلى أجرا. قائد الاتصالات
تالموضوع الرابع: أدوات Varrum وإدارة التنبيهات.
أفضل ممارسات الشركات الأخرى في تنظيم إدارة الحوادث.
اليوم الرابع: تحليل الممارسات والحالات
حل الحالة 2: التبعية المنبع.
إنه شيء واحد عندما تعتمد على خدمة ذات مستوى منخفض من SLO. إنها مسألة أخرى عندما تكون خدمتك هي نفسها بالنسبة لأجزاء أخرى من النظام. يحدث هذا إذا كانت معايير التقييم غير متسقة: على سبيل المثال، يمكنك الرد على طلب في غضون ثانية واحدة وتعتبره ناجحًا، لكن الخدمة التابعة تنتظر 500 وقت فقط في موسكو وتغادر مع وجود خطأ.
في هذه الحالة، سنناقش أهمية تنسيق المقاييس وتعلم كيفية النظر إلى الجودة من خلال عيون العميل.
حل الحالة 3: مشاكل في قاعدة البيانات.
يمكن أن تكون قاعدة البيانات أيضًا مصدرًا للمشاكل. على سبيل المثال، إذا لم تقم بمراقبة ترحيل النسخ المتماثل، ستصبح النسخة المتماثلة قديمة وسيقوم التطبيق بإرجاع البيانات القديمة. علاوة على ذلك، فإن تصحيح مثل هذه الحالات أمر صعب بشكل خاص: الآن أصبحت البيانات غير متسقة، ولكن بعد بضع ثوان لم تعد متسقة، وليس من الواضح ما هو سبب المشكلة.
من خلال هذه الحالة، ستشعر بكل ألم تصحيح الأخطاء وستتعلم كيفية منع مثل هذه المشكلات.
يمارس: نكتب تشريحًا للحالة السابقة ونناقشها مع المتحدثين.
اليوم الخامس: جلسة AMA، الإجابة على الأسئلة
جلسة AMA والإجابات على الأسئلة حول المواضيع السابقة.
يتم فتح الوصول إلى الوحدة النظرية الثالثة:
التدريع حركة المرور والإصدارات الكناري
في الوحدة الثالثة سنقوم بتحليل حالة مخصصة لمشكلة تتعلق بالبيئة (سيكون هناك تحليل مفصل للصحة التحقق)، وسنقوم أيضًا بتحليل خطوة بخطوة كيفية تنفيذ SRE في الشركات ومعرفة تجربة الشركات التي يعمل فيها المتحدثون كثيف
الموضوع الخامس: فحص الصحة
- التحقق من الصحة في Kubernetes
- هل خدمتنا لا تزال على قيد الحياة؟
- تحقيقات إكسيك
- التأخير الأولي ثواني
- المنفذ الصحي الثانوي
- خادم الصحة Sidecar
- مسبار بلا رأس
- مسبار الأجهزة
الموضوع السادس: طرق النشر
الموضوع السابع: إعداد مشروع SRE
غالبًا ما تشكل الشركات الكبيرة فريقًا منفصلاً لـ SRE، والذي يتولى خدمات الأقسام الأخرى للحصول على الدعم. ولكن ليست كل خدمة جاهزة للقبول للحصول على الدعم. سنخبرك بالمتطلبات التي يجب أن تفي بها. سيشارك المتحدثون أيضًا خبراتهم، وكيفية تطبيق SRE والأخطاء التي ارتكبوها.
اليوم السادس: تحليل الممارسات والحالات
حل الحالة 4: هناك مشكلة في البيئة، ومن المستحيل شراء التذاكر.
تتمثل مهمة Healthcheck في اكتشاف الخدمة المعطلة وحظر حركة المرور إليها. وإذا كنت تعتقد أن هذا يكفي لتقديم طلب إلى الخدمة مع الجذر وتلقي الرد، فأنت أنت مخطئ: حتى لو استجابت الخدمة، فهذا لا يضمن تشغيلها - فقد تنشأ مشاكل المناطق المحيطة.
من خلال هذه الحالة، ستتعلم كيفية تكوين الفحص الصحي الصحيح وعدم السماح لحركة المرور بالذهاب إلى حيث لا يمكن معالجتها.
تلخيص