مجله علوم رایانشی

چکیده مقاله ارائه روش ترکیبی مبتنی بر یادگیری ماشین برای دسته‌بندی خودکار متون اینترنتی

با افزایش حجم اطلاعات در دسترس بر روی اینترنت و پایگاه‌های داده، نیاز به ابزارهایی که بتوانند در جستجو، پالایش و مدیریت منابع کمک کنند، ضروری است. برای رسیدن به این منظور در این پژوهش، از دسته‌بندی متون با استفاده از الگوریتم‌های یادگیری ماشین استفاده شده است. دسته‌بندی یا رده‌بندی متون، به اختصاص یک سند متنی به یک طبقه مناسب از پیش تعیین شده گفته می‌شود. چالش اصلی دسته‌بندی متون، بزرگی فضای ویژگی‌ها در این گونه مسائل است. در بسیاری از الگوریتم‌های موجود چنین فضای بزرگی منجر به کند شدن بسیار زیاد دسته‌بند و ناکارآمدی آن خواهد شد. علاوه بر این ویژگی‌هایی وجود دارند که نه تنها باعث دسته‌بندی بهتر متون نمی‌شوند بلکه دقت دسته‌بندی را نیز کاهش می‌دهند. در این پژوهش جهت دست یافتن به کارایی مناسب ابتدا آماده‌سازی متون یا مجموعه داده انجام شده است. برای این منظور ابتدا اسناد متنی را به شکل یکسان (حروف کوچک) تبدیل کرده و سپس نتایج در دو حالت، بدون حذف کلمات متوقف کننده و با حذف کلمات متوقف کننده به‌دست آمده است. این سیستم شامل دو مرحله، پردازش متن و دسته‌بندی متن می‌باشد. در مرحلۀ اول برای استخراج ویژگی‌ها از معیارهای شاخص‌گذاری مختلفی نظیر bigram، trigram و quadgram استفاده شده، سپس در مرحلۀ دوم برای آموزش سیستم از الگوریتم یادگیری ماشین W-SMO استفاده شده است. به منظور ارزیابی و مقایسه نتایج دو معیار دقت و بازخوانی،Macro-F1 و Micro-F1 برای روش‌های مختلف شاخص‌گذاری محاسبه شده‌اند. نتایج آزمایش‌ها که بر روی 7676 سند متنی استاندارد خبرگزاری رویترز انجام گرفت، نشان داد که روش پیشنهادی بهترین کارایی را نسبت به الگوریتم¬های W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسی نتایج نشان می¬دهد که روش پیشنهادی باعث بهبود دقت میکرو تا 95.17% در دسته‌بندی متون می‌گردد.