با افزایش حجم اطلاعات در دسترس بر روی اینترنت و پایگاههای داده، نیاز به ابزارهایی که بتوانند در جستجو، پالایش و مدیریت منابع کمک کنند، ضروری است. برای رسیدن به این منظور در این پژوهش، از دستهبندی متون با استفاده از الگوریتمهای یادگیری ماشین استفاده شده است. دستهبندی یا ردهبندی متون، به اختصاص یک سند متنی به یک طبقه مناسب از پیش تعیین شده گفته میشود. چالش اصلی دستهبندی متون، بزرگی فضای ویژگیها در این گونه مسائل است. در بسیاری از الگوریتمهای موجود چنین فضای بزرگی منجر به کند شدن بسیار زیاد دستهبند و ناکارآمدی آن خواهد شد. علاوه بر این ویژگیهایی وجود دارند که نه تنها باعث دستهبندی بهتر متون نمیشوند بلکه دقت دستهبندی را نیز کاهش میدهند. در این پژوهش جهت دست یافتن به کارایی مناسب ابتدا آمادهسازی متون یا مجموعه داده انجام شده است. برای این منظور ابتدا اسناد متنی را به شکل یکسان (حروف کوچک) تبدیل کرده و سپس نتایج در دو حالت، بدون حذف کلمات متوقف کننده و با حذف کلمات متوقف کننده بهدست آمده است.
این سیستم شامل دو مرحله، پردازش متن و دستهبندی متن میباشد. در مرحلۀ اول برای استخراج ویژگیها از معیارهای شاخصگذاری مختلفی نظیر bigram، trigram و quadgram استفاده شده، سپس در مرحلۀ دوم برای آموزش سیستم از الگوریتم یادگیری ماشین W-SMO استفاده شده است. به منظور ارزیابی و مقایسه نتایج دو معیار دقت و بازخوانی،Macro-F1 و Micro-F1 برای روشهای مختلف شاخصگذاری محاسبه شدهاند. نتایج آزمایشها که بر روی 7676 سند متنی استاندارد خبرگزاری رویترز انجام گرفت، نشان داد که روش پیشنهادی بهترین کارایی را نسبت به الگوریتم¬های W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسی نتایج نشان می¬دهد که روش پیشنهادی باعث بهبود دقت میکرو تا 95.17% در دستهبندی متون میگردد.