چکیده مقاله انتخاب ویژگی با الگوریتم بهینه‌سازی حاصلخیزی زمین‌های کشاورزی برای تشخیص صفحات وب هرز

در فضای اینترنت، امکان به‌کارگیری انواع سرویس‌ها و خدمات متعدد برای کاربران مهیا شده است. همزمان با رشد و گسترش استفاده از اینترنت، تعداد هرز‌نویسان وب افزایش یافته است. صفحات وب هرز به اشکال مختلفی چون تبلیغات تجاری و ویروس‌هایی نهان شده در صفحات وب جایگذاری می‌شود. صفحات وب هرز علاوه بر تهدید امنیت کاربران در وب، موجب هدر رفتن منابع سیستم و ایجاد ترافیک مخرب نیز می‌گردند؛ لذا ارایه راهکارهایی جهت مقابله با وب هرز ضروری به نظر می‌رسد. یکی از روش‌های شناسایی و مقابله با صفحات وب هرز، طبقه‌بندی صفحات با استفاده از الگوریتم‌های یادگیری ماشین است. در این مقاله، مدلی جدید برمبنای الگوریتم حاصلخیزی زمین‌های کشاورزی و بیز ساده با عنوان‌ FFANB برای تشخیص صفحات وب هرز پیشنهاد شده است. در مدل FFANB از الگوریتم حاصلخیزی زمین‌های کشاورزی برای انتخاب ویژگی و بیز ساده برای طبقه‌بندی نمونه‌ها استفاده شده است. هدف مدل FFANB کاهش ویژگی‌ها به منظور افزایش صحت بااستفاده از الگوریتم حاصلخیزی زمین‌های کشاورزی می‌باشد که از مجموعه داده WEBSPAM-UK2007 که از معتبرترین مجموعه داده در زمینه شناسایی صفحات وب هرز می‌باشد استفاده شده است. این مجموعه داده شامل سه دسته ویژگی با عناوین ویژگی‌های مبتنی بر محتوا (96 ویژگی)، ویژگی‌های مبتنی بر پیوند (41 ویژگی) و ویژگی‌های مبتنی بر پیوند تبدیل یافته (138 ویژگی) می‌باشد که تعداد کل ویژگی‌ها برابر با 275 ویژگی است. نتایج ارزیابی‌های صورت گرفته برروی مدل FFANB نشان دهنده درصد دقت 9241/0 و صحت 9584/0 می‌باشند که حاکی از برتری مدل FFANB در مقایسه با بسیاری از روش‌های پیشین می‌باشد.