Efficient text-independent speaker verification with structural gaussian mixture models and neural network

تاریخ: ۲۰۰۳

پایگاه: IEEE Xplore

نام مجله: Speech and Audio Processing

قیمت: ۱۰۰,۰۰۰ ریال

تعداد صفحات انگلیسی: ۱۰

تعداد صفحات فارسی: ۲۸

کد: ۵۵۰۲۸

چکیده فارسی

ما سیستم یکپارچه‌ای را در ارتباط با مدل‌های مخلوط گاوس ساختاری (SGMM) و شبکه‌های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می‌دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه‌بندی زنجیره‌ای تمام موئلفه‌های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می‌گردد. به این ترتیب، یک فضای اکوستیک به بخش‌های چندگانه‌ای در سطوح مختلف قدرت تشخیص، جزءبندی می‌گردد. برای هر یک از گوینده‌های مورد نظر، مدل مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می‌گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه‌های مخلوط گاوس برای هر بردار مختصات محاسبه می‌گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایه‌های مدل‌های درخت ساختار، برای تصمیم‌گیری نهایی از طریق شبکه عصبی ادغام می‌گردند. وضعیت‌های مختلفی در بررسی‌های انجام شده بر روی داده‌های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST، مقایسه شد. نتایج تجربی نشان می‌دهد که کاهش محاسبه توسط فاکتور ۱۷ از طریق ۵% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می‌گردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می‌باشد.

چکیده انگلیسی

We present an integrated system with structural Gaussian mixture models (SGMMs) and a neural network for purposes of achieving both computational efficiency and high accuracy in text-independent speaker verification. A structural background model (SBM) is constructed first by hierarchically clustering all Gaussian mixture components in a universal background model (UBM). In this way the acoustic space is partitioned into multiple regions in different levels of resolution. For each target speaker, a SGMM can be generated through multilevel maximum a posteriori (MAP) adaptation from the SBM. During test, only a small subset of Gaussian mixture components are scored for each feature vector in order to reduce the computational cost significantly. Furthermore, the scores obtained in different layers of the tree-structured models are combined via a neural network for final decision. Different configurations are compared in the experiments conducted on the telephony speech data used in the NIST speaker verification evaluation. The experimental results show that computational reduction by a factor of 17 can be achieved with 5% relative reduction in equal error rate (EER) compared with the baseline. The SGMM-SBM also shows some advantages over the recently proposed hash GMM, including higher speed and better verification performance

مشخصات استنادی

Xiang, B., & Berger, T. (2003). Efficient text-independent speaker verification with structural gaussian mixture models and neural network. Speech and Audio Processing, IEEE Transactions on, 11(5), 447-456

دانلود اصل مقاله

ویژگی‌های مقاله تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

مقاله “تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی” در سال ۲۰۰۳ در مجله Speech and Audio Processing چاپ شده و در پایگاه اطلاعاتی IEEE Xplore نمایه شده است. این مقاله به بررسی مدل‌های مخلوط گاوس ساختاری (SGMM)، شبکه‌های عصبی، مدل پس زمینه ساختاری (SBM)، روش SGMM-SBM و استدلال حداکثری (MAP) پرداخته است. همچنین براساس اطلاعات پایگاه اطلاعاتی گوگل اسکولار این مقاله ۱۱۸ بار مورد استناد قرار گرفته است.