logo
بهترین روش‌های SRE در دنیای واقعی

بهترین روش‌های SRE در دنیای واقعی

تاریخ: ۲۵ شهریور ۱۴۰۳

اطلاعات مقاله

دسته‌بندی: SRE

تاریخ: ۲۵ شهریور ۱۴۰۳

نویسنده: محمد جبلی

زمان مطالعه: 5 دقیقه

بهترین روش‌های SRE در دنیای واقعی

بهترین روش‌های SRE در دنیای واقعی

تاریخ: ۲۵ شهریور ۱۴۰۳

مقدمه‌ای بر Site Reliability Engineering

مهندسی قابلیت اطمینان سایت (SRE) یک رشته است که مهندسی نرم‌افزار را برای مشکلات عملیاتی به کار می‌برد. Google این رویکرد را پیشگام کرد و از آن زمان به طور گسترده در صنعت پذیرفته شده است.

اصول کلیدی

اهداف سطح خدمات (SLOs)

SLO‌ها قابلیت اطمینان هدف برای سرویس شما را تعریف می‌کنند. آن‌ها پایه و اساس عملکرد SRE هستند و به تعادل بین قابلیت اطمینان و سرعت ارائه ویژگی کمک می‌کنند.

بودجه خطا

بودجه خطا مقدار غیرقابل اطمینانی است که حاضرید تحمل کنید. اگر یک SLO به میزان ۹۹.۹٪ دارید، بودجه خطای شما ۰.۱٪ downtime در ماه (حدود ۴۳ دقیقه) است.

کاهش Toil

Toil کار عملیاتی دستی و تکراری است. تیم‌های SRE هدف دارند toil را زیر ۵۰٪ از زمان خود نگه دارند و همه چیز دیگر را اتوماتیک کنند.

استراتژی مانیتورینگ

  • از چهار سیگنال طلایی استفاده کنید: تأخیر، ترافیک، خطاها، اشباع
  • distributed tracing را پیاده‌سازی کنید
  • برای حوادث رایج runbook ایجاد کنید
  • post-mortem‌های بدون سرزنش را تمرین کنید

نتیجه‌گیری

پیاده‌سازی روش‌های SRE منجر به سیستم‌های قابل اطمینان‌تر و تیم‌های مهندسی شادتر می‌شود.

اطلاعات مقاله

دسته‌بندی: SRE

تاریخ: ۲۵ شهریور ۱۴۰۳

نویسنده: محمد جبلی

زمان مطالعه: 5 دقیقه

در خبرنامه ما مشترک شوید

جدیدترین مقالات در حوزه DevOps، Kubernetes و زیرساخت ابری را دریافت کنید.