شناسایی گوینده در شرایط نوفه‌ای با استفاده از ویژگی‌های فیلتربانک گاماتون و تبدیل کسینوسی گسسته و قطبی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 کارشناس ارشد فناوری اطلاعات، پژوهشکدۀ فضای مجازی - دانشگاه شهید بهشتی - تهران - ایران

2 کارشناس ارشد مهندسی برق، دانشکده مهندسی برق - دانشگاه شهید بهشتی - تهران - ایران

چکیده

احراز هویت افراد بر مبنای صوت یکی از موارد مهم پژوهشی در دهۀ اخیر بوده است. این موضوع در حوزه‌هایی مانند ردیابی گویندگان، ورود امن گویندگان به دستگاه‌های مختلف و سایر سامانه‌های مربوط به پردازش گفتار، کاربرد فراوانی دارد. هدف از یک سیستم احراز هویت گوینده، تشخیص هویت افراد با استفاده از سیگنال صدای انسان می‌باشد. یکی از چالش‌های مهمِ موجود در حوزۀ احراز هویت گوینده، افزایش کارایی این سیستم در شرایط نوفه‌ای شدید می‌باشد. در این پژوهش با استفاده از فیلتربانک گاماتون و ارائه ویژگی جدیدی از تبدیل‌های کسینوسی گسسته و قطبی، روشی برای افزایش کارایی سیستم احراز هویت گوینده در شرایط نوفه‌ای شدید طراحی شده است. مقایسه نتایج روش پیشنهادی با روش‌های موجود نشان می‌دهد، روش پیشنهادی توانسته است با دقت بیشتری، هویت افراد را در شرایط نوفه‌ای مختلف شناسایی کند. روش پیشنهادی به‌صورت کمی در محیط نوفۀ سفید با نسبت سیگنال به نوفۀ 20، 10 و 5 به ترتیب 89، 77 و 61 درصد دقت و در محیط نوفۀ توأمان خیابانی و سفید با نسبت سیگنال به اختلال 20، 10 و 5 به ترتیب 87، 71 و 51 درصد دقت داشته است. همچنین، دقت روش پیشنهادی در مقایسه با روش جدید ضرایب کپسترالِ فرکانسِ گاماتونِ بهبود یافته، به‌طور متوسط ۴درصد، افزایش یافته است.





 

کلیدواژه‌ها