تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی
Efficient text-independent speaker verification with structural gaussian mixture models and neural network
تاریخ: ۲۰۰۳
پایگاه: IEEE Xplore
نام مجله: Speech and Audio Processing
قیمت: ۱۰۰,۰۰۰ ریال
تعداد صفحات انگلیسی: ۱۰
تعداد صفحات فارسی: ۲۸
کد: ۵۵۰۲۸
چکیده فارسی
ما سیستم یکپارچهای را در ارتباط با مدلهای مخلوط گاوس ساختاری (SGMM) و شبکههای عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه میدهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشهبندی زنجیرهای تمام موئلفههای مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد میگردد. به این ترتیب، یک فضای اکوستیک به بخشهای چندگانهای در سطوح مختلف قدرت تشخیص، جزءبندی میگردد. برای هر یک از گویندههای مورد نظر، مدل مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد میگردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفههای مخلوط گاوس برای هر بردار مختصات محاسبه میگردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایههای مدلهای درخت ساختار، برای تصمیمگیری نهایی از طریق شبکه عصبی ادغام میگردند. وضعیتهای مختلفی در بررسیهای انجام شده بر روی دادههای حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST، مقایسه شد. نتایج تجربی نشان میدهد که کاهش محاسبه توسط فاکتور ۱۷ از طریق ۵% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل میگردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، میباشد.
چکیده انگلیسی
We present an integrated system with structural Gaussian mixture models (SGMMs) and a neural network for purposes of achieving both computational efficiency and high accuracy in text-independent speaker verification. A structural background model (SBM) is constructed first by hierarchically clustering all Gaussian mixture components in a universal background model (UBM). In this way the acoustic space is partitioned into multiple regions in different levels of resolution. For each target speaker, a SGMM can be generated through multilevel maximum a posteriori (MAP) adaptation from the SBM. During test, only a small subset of Gaussian mixture components are scored for each feature vector in order to reduce the computational cost significantly. Furthermore, the scores obtained in different layers of the tree-structured models are combined via a neural network for final decision. Different configurations are compared in the experiments conducted on the telephony speech data used in the NIST speaker verification evaluation. The experimental results show that computational reduction by a factor of 17 can be achieved with 5% relative reduction in equal error rate (EER) compared with the baseline. The SGMM-SBM also shows some advantages over the recently proposed hash GMM, including higher speed and better verification performance
مشخصات استنادی
دانلود اصل مقاله
ویژگیهای مقاله تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی
مقاله “تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی” در سال ۲۰۰۳ در مجله Speech and Audio Processing چاپ شده و در پایگاه اطلاعاتی IEEE Xplore نمایه شده است. این مقاله به بررسی مدلهای مخلوط گاوس ساختاری (SGMM)، شبکههای عصبی، مدل پس زمینه ساختاری (SBM)، روش SGMM-SBM و استدلال حداکثری (MAP) پرداخته است. همچنین براساس اطلاعات پایگاه اطلاعاتی گوگل اسکولار این مقاله ۱۱۸ بار مورد استناد قرار گرفته است.
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.