پژوهشکده علوم کامپیوتر، پژوهشگاه دانشهای بنیادی )IPM)
چکیده
با رشد روز افزون شبکههای اجتماعی، میل به تحلیل محتوای منتشرشده برای مقاصد گوناگون افزایش یافته است. یک دسته از عمده فعالیتهایی که در این حوزه انجام میشود شناسایی و دستهبندی محتواهای تولیدشده است. این موضوع به معنی گروهبندی مطالب منتشرشده در دستههایی با موضوعات مشابه و ارائه برچسبهای پیشنهادی برای هر دسته میباشد. در این مقاله، الگوریتم جدیدی برای دستهبندی محتوای متنی شبکه اجتماعی توئیتر ارائه شده است. در این الگوریتم ابتدا هر متن، پیشپردازش شده و سپس یک گراف ارتباطات جدید مبتنی بر محتوای متنهای منتشرشده ساخته میشود. این گراف وزندار و بیجهت است و روی آن با استفاده از دو روش بدون ناظر، تشکلهای مختلف شناسایی میشوند. برای ارزیابی، دادههای متنی ارسالشده از شهر واشینگتن در یک بازه زمانی، با API جمعآوری و الگوریتمهای ارائهشده روی آن اعمال شده است. برای بررسی دقت، نتایج حاصل با دو الگوریتم کلاسیک K-means و LDA بر اساس معیار اطلاعات متقابل نرمالشده، مقایسه شده است که نشاندهنده دقت مناسب الگوریتم پیشنهادی است.