دورة "مهندس البيانات" - دورة 95000 فرك. من ورشة عمل ياندكس، تدريب لمدة 6.5 أشهر، التاريخ: 11 ديسمبر 2023.
Miscellanea / / November 30, 2023
للمطورين الممارسين
تعلم كيفية إنشاء بنية تحتية للعمل مع البيانات وتنظيم معرفتك لاستخدامها في دورك الحالي أو تغيير الاتجاه إلى مهندس بيانات.
لمهندسي البيانات الطموحين
هيكلة المعرفة: بالإضافة إلى النظرية الواضحة، سيكون هناك الكثير من الممارسة. ستكتسب خبرة في العمل على المشاريع - وهذا سيساعدك على بناء ملف أعمالك والتميز عن المرشحين الآخرين وعدم الضياع في العمل الحقيقي.
متخصصون ومحللون في علوم البيانات
إتقان المهارات التي ستساعدك على التعامل مع المهام بشكل أكثر فعالية: بناء خطوط البيانات، وتصميم واجهات المتاجر، وبناء ETL، وجمع البيانات الأولية بكميات كبيرة.
تحديث نموذج البيانات
وحدة واحدة 2 أسابيع
تستمر الشركة في غمرك في عملياتها. تم تحديث البيانات التي كنت تستخدمها، لذا تحتاج إلى تغيير نموذج البيانات.
في هذه الدورة أنت:
- فهم كيفية بناء الشركة لقاعدة البيانات؛
- تحديث هيكل قاعدة البيانات الحالية وفقا لمتطلبات العمل الجديدة؛
- إعداد واجهات عرض ومقاييس جديدة للمحللين والمديرين.
التقنيات والأدوات:
- PostgreSQL
+1 مشروع في المحفظة
قم ببناء سوق بيانات مع التحميل المتزايد لتحليلات جمهور المتجر عبر الإنترنت.
DWH: مراجعة نموذج البيانات
الوحدة 2 3 أسابيع
الشركة تنمو، وهندسة البيانات أصبحت أكثر تعقيدا. تم تكليفك بمهمة - تحسين العمليات باستخدام البيانات.
في هذه الدورة أنت:
- التفكير في عملية الانتقال من نظام قاعدة البيانات القديم إلى النظام الجديد مع تقليل خسائر الأعمال (النشر دون توقف)؛
- إعداد ترحيل البيانات؛
- تأخذ في الاعتبار المشاكل المحتملة وتصميم خيار التراجع عن التغييرات؛
- تنفيذ بنية قاعدة بيانات جديدة وتكييفها مع العمليات الحالية المتعلقة بالبيانات.
التقنيات والأدوات:
- بوسجرسكل
- بايثون
+1 مشروع في المحفظة
ستقوم بترتيب نموذج البيانات وترحيل البيانات ضمن مساحة التخزين الحالية للمتجر عبر الإنترنت.
ETL: أتمتة إعداد البيانات
الوحدة 3 3 أسابيع
أنت تعرف الآن كل شيء تقريبًا عن مستودع بيانات الشركة. لقد حان الوقت لإعادة التفكير في عمليات ETL.
في هذه الدورة أنت:
- أتمتة خط أنابيب البيانات؛
- تكوين التنزيل التلقائي للبيانات من المصادر؛
- تعلم كيفية تحميل البيانات بشكل منتظم ومتزايد في قاعدة البيانات.
التقنيات والأدوات:
- بايثون
- تدفق الهواء
- PostgreSQL
+1 مشروع في المحفظة
أنشئ مسارًا لاستلام البيانات ومعالجتها وتحميلها آليًا من المصادر إلى واجهة المتجر لمشروع التجارة الإلكترونية.
فحص جودة البيانات
الوحدة 4 أسبوع واحد
تريد التأكد من أن خطوط الأنابيب الأولى تعمل بشكل جيد. يجب التحقق من جودة البيانات، ويجب تتبع الأعطال في الوقت المناسب.
في هذه الدورة أنت:
- فهم كيفية استخدام المعلومات الوصفية والوثائق؛
- تقييم جودة البيانات.
DWH لمصادر متعددة
الوحدة 5 2 أسابيع
أنت تواصل البحث في DWH لأنه لا يمكن إيقاف تطور الشركة، وبالتالي الزيادة في حجم البيانات.
في هذه الدورة أنت:
- بناء DWH من الصفر على نظام إدارة قواعد البيانات العلائقية؛
- التعرف على MongoDB كمصدر للبيانات.
التقنيات والأدوات:
- PostgreSQL
- MongoDB
+1 مشروع في المحفظة
ستقوم بتصميم وتنفيذ DWH لبدء التشغيل الداخلي.
قواعد البيانات التحليلية
الوحدة 6 2 أسابيع
هناك المزيد والمزيد من البيانات غير المنظمة المحددة التي تحتاج أيضًا إلى تخزينها ومعالجتها. ولذلك، سوف نقدم لك مفهوم قواعد البيانات التحليلية باستخدام نظام Vertica DBMS كمثال.
في هذه الدورة أنت:
- دراسة تنظيم التخزين في فيرتيكا؛
- تعلم كيفية إجراء العمليات الأساسية مع البيانات في Vertica؛
- بناء مستودع بيانات بسيط في فيرتيكا.
التقنيات والأدوات:
- فيرتيكا
- PostgreSQL
- تدفق الهواء
- S3
+1 مشروع في المحفظة
قم ببناء DWH لنظام بيانات مراسلة عالي التحميل منخفض البنية باستخدام Vertica.
منظمة بحيرة البيانات
الوحدة 7 4 أسابيع
الحلول الكلاسيكية لا تساعد في التعامل مع حجم البيانات. للتعامل مع تحديات الأعمال الجديدة، ستقوم ببناء وتعبئة بحيرة البيانات.
في هذه الدورة أنت:
- النظر في بنية Data Lake (trans. "بحيرة البيانات")؛
- تعلم كيفية معالجة البيانات في نظام MPP؛
- ملء بحيرة البيانات بالبيانات من المصادر؛
- التدرب على معالجة البيانات باستخدام PySpark وAirflow.
التقنيات والأدوات:
- هادوب
- MapReduce
- HDFS
- أباتشي سبارك (PySpark)
+1 مشروع في المحفظة
بناء بحيرة البيانات وأتمتة تحميل ومعالجة البيانات فيها.
معالجة الدفق
الوحدة 8 3 أسابيع
لقد تغلبت على الصعوبات بكمية كبيرة من البيانات، ولكن ظهرت مهمة جديدة - تحتاج إلى مساعدة الشركة على اتخاذ القرارات بشكل أسرع. هنا سوف تحتاج إلى معرفة معالجة بيانات الدفق. تدفق).
في هذه الدورة أنت:
- النظر في ميزات معالجة بيانات الدفق؛
- بناء نظام البث الخاص بك؛
- بناء واجهة متجر باستخدام البيانات في الوقت الحقيقي.
التقنيات والأدوات:
- كافكا
- شرارة الجري
+1 مشروع في المحفظة
سوف تقوم بتطوير نظام معالجة البيانات في الوقت الحقيقي.
التقنيات السحابية
الوحدة 9 3 أسابيع
يمكنك الآن العمل مع كميات كبيرة من البيانات والتدفقات. كل ما تبقى هو أتمتة توسيع نطاق الأنظمة باستخدام الخدمات السحابية.
ستتعلم في هذه الدورة كيفية تنفيذ الحلول التي تمت دراستها بالفعل، ولكن في السحابة (باستخدام Yandex Cloud كمثال).
التقنيات والأدوات:
- ياندكس. سحاب
- كوبيرنيتيس
- kubectl
- ريديس
- PostgreSQL
+1 مشروع في المحفظة
ستقوم بتطوير البنية التحتية لتخزين ومعالجة البيانات في السحابة.
مشروع التخرج
الوحدة 10 3 أسابيع
تأكد من أنك تعلمت مهارات جديدة.
هنا سوف تحتاج إلى اختيار وتنفيذ حلول لمشكلة العمل بشكل مستقل. سيساعدك هذا مرة أخرى على تعزيز استخدام الأدوات التي تعلمتها، فضلاً عن استقلاليتك.