1
استادیار دانشکده علوم و فنون نوین، دانشگاه تهران
2
کارشناسی ارشد پردیس بین المللی، دانشگاه تهران
چکیده
دستهبندی اسناد متنی یا تشخیص عنوان به فرآیند شناسایی خودکار موضوع یک سند متنی (مانند هنری، ورزشی، سیاسی، `علمی و ...) گفته میشود که در کاربردهای مختلف پردازش زبان طبیعی مانند بازیابی اطلاعات و تحلیل متون مورد استفاده است. یک سامانه دستهبندیکننده خودکار متون، مشابه اغلب سامانههای بازشناسی الگو، از دو گام مهم استخراج ویژگی و دستهبندی تشکیل شده است. در این مقاله، مروری بر روشهای رایج برای استخراج ویژگی و دستهبندی در این سامانهها صورت گرفته و پژوهشهایی که در این حوزه برای زبان فارسی انجام شده است، مرور شدهاند. همچنین، تحلیلی از نقاط قوت و ضعف روشهای موجود و مقایسه کارهای صورت گرفته با همدیگر ارائه شده است.