1
کارشناسی ارشد فناوری اطالعات، دانشکده برق و کامپیوتر، دانشگاه بیرجند، بیرجند، ایران.
2
استادیار گروه مهندسی کامپیوتر، دانشکده برق و کامپیوتر، دانشگاه بیرجند، بیرجند، ایران
چکیده
امروزه به علت رشد تولید اطلاعات در جهان، استفاده از سیستمهای توزیعشده مقیاسبزرگ همهگیر شده و کاربردهای فراوانی نه تنها در علوم کامپیوتر بلکه در علوم دیگر نظیر اقلیمشناسی، پزشکی و زیستشناسی پیدا کرده است. اینگونه سیستمها به علت طبیعت پویا و پیچیدهای که دارند همواره دچار خرابیهای مختلف میگردند. راهبرد بیشتر این سیستمها در هنگام مواجه شدن با خرابی این است که برنامه را مجدداً بر روی بخش دیگری از سیستم اجرا نمایند که این روش موجب هدر رفتن منابع، زمان و انرژی میشود؛ بنابراین وجود یک سیستم واکنشی پیشگیرانه که خرابی را قبل از وقوع آن پیشبینی و متوقف کند بسیار مفید به نظر میرسد. در این مقاله تلاش شده است تا بخشی از پژوهشهایی که در چند سال گذشته به جهت پیشبینی خرابی در سیستمهای توزیعشده مقیاس بزرگ انجام گرفته است مرور و دستهبندی شود. تمرکز اصلی مقاله روی مطالعاتی میباشد که با استفاده از فایلهای ثبت وقایع، به پیشبینی خرابی برنامهها یا منابع (سختافزار و نرمافزار) در یک سیستم توزیعشده (شامل خوشههای کامپیوتری و سیستمهای مشبک) در دنیای واقعی پرداخته است. بهطور کلی، بررسی این مطالعات نشان میدهد که پیشبینی برخط (به علت استفاده از ویژگیهای بیشتر) نتایج بهتری دارد. امّا، پیشبینی غیر برخط منابع بیشتری را حفظ میکند. به همین جهت، پیشبینی ترکیبی بهترین گزینه به نظر میرسد. همچنین در سالهای اخیر، مطالعه بر روی دادههای ثبت وقایع مرتبط با سیستمهای زیرساخت ابری (مانند خوشههای گوگل) محبوبیت بیشتری داشته است.