چکیده مقاله مروری بر روش‌های پیش‌بینی خرابی در سیستم‌های توزیع‌شده مقیاس بزرگ

امروزه به علت رشد تولید اطلاعات در جهان، استفاده از سیستم‌های توزیع‌شده مقیاس‌بزرگ همه‌گیر شده و کاربردهای فراوانی نه‌ تنها در علوم کامپیوتر بلکه در علوم دیگر نظیر اقلیم‌شناسی، پزشکی و زیست‌شناسی پیدا کرده است. این‌گونه سیستم‌ها به علت طبیعت پویا و پیچیده‌ای که دارند همواره دچار خرابی‌های مختلف می‌گردند. راهبرد بیشتر این سیستم‌ها در هنگام مواجه شدن با خرابی این است که برنامه را مجدداً بر روی بخش دیگری از سیستم اجرا نمایند که این روش موجب هدر رفتن منابع، زمان و انرژی می‌شود؛ بنابراین وجود یک سیستم واکنشی پیشگیرانه که خرابی را قبل از وقوع آن پیش‌بینی و متوقف کند بسیار مفید به نظر می‌رسد. در این مقاله تلاش شده است تا بخشی از پژوهش‌هایی که در چند سال گذشته به جهت پیش‌بینی خرابی در سیستم‌های توزیع‌شده مقیاس بزرگ انجام گرفته است مرور و دسته‌بندی شود. تمرکز اصلی مقاله روی مطالعاتی می‌باشد که با استفاده از فایل‌های ثبت وقایع، به پیش‌بینی خرابی برنامه‌ها یا منابع (سخت‌افزار و نرم‌افزار) در یک سیستم توزیع‌شده (شامل خوشه‌های کامپیوتری و سیستم‌های مشبک) در دنیای واقعی پرداخته است. به‌طور کلی، بررسی این مطالعات نشان می‌دهد که پیش‌بینی برخط (به علت استفاده از ویژگی‌های بیشتر) نتایج بهتری دارد. امّا، پیش‌بینی غیر برخط منابع بیشتری را حفظ می‌کند. به همین جهت، پیش‌بینی ترکیبی بهترین گزینه به نظر می‌رسد. همچنین در سال‌های اخیر، مطالعه بر روی داده‌های ثبت وقایع مرتبط با سیستم‌های زیرساخت ابری (مانند خوشه‌های گوگل) محبوبیت بیشتری داشته است.