专利摘要
专利摘要
本发明提供了一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、ΔMFCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM‑UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM‑UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。
权利要求
1.一种基于多类型组合特征参数的声纹识别方法,其特征在于,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
步骤S3中选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维特征向量;
特征参数提取的具体步骤包括:
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱;这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变化DCT;先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k);X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱;其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分;
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n);
其中L为MFCC参数的阶数;
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数;
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理; 其中Emax=maxEl,即语音段中最大的对数能量;
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点模型:
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器;LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法;
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱 定义为x(n)的Z变换的对数反Z变换,即为:
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
c(n)=Z-1(log|X(z)|) (8)
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的;LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数;实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率;
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律;语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号;h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的;正交多项式的一阶系数Δcm(n)如式(10)所示;
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合;所以按照式(10)可以得到MFCC、LPCC、能量的一阶动态参数;
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱;这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT;先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k);X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfi+φi)U(t),t≥0,1≤i≤N (12)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数;
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数;各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比;每个滤波器中心频率确定后,相应的带宽可由式(14)获得;
(3)Gammatone滤波器组滤波;对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理;得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分;
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n);
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
2.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S4中遗传算法的具体步骤包括:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
3.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S2中预加重滤波器的参数u取0.95,分帧采用的帧长为256,帧移为100,窗函数采用汉明窗。
4.根据权利要求1所述的基于多类型组合特征参数的声纹识别方法,其特征在于,步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件。
说明书
技术领域
本发明涉及语音信号处理领域,具体涉及一种基于多类型组合特征参数的声纹识别方法。
背景技术
在当今信息时代的前提下,作为信息安全的重要组成部分之一的身份识别技术引来了新的挑战。传统的密码识别由于算法的局限性与硬软件解密技术的上升已经展现出了它的弊端。作为身份识别的新技术之一,声纹识别技术,因其独特的方便性、经济性及准确性等优点,受到人们越来越多的重视。
声纹识别,就是从说话人的一段语音中提取出说话人的个性特征,通过对个人特征的分析与识别,从而达到对说话人进行辨认或者确认的目的。说话人识别并不注意语音信号的内容,而是希望从语音信号中提取个人的特征,由于每个人独特的声道特性和发音特点,使得说话人的语音信号具有区别于其他说话人的特征,这就是声纹识别的基本依据。
声纹识别的关键技术,主要是语音信号的特征参数提取和识别模型的建立。最常用的语音信号的特征参数有两种:一种是根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),反映了说话人语音的听觉频率的非线性特性,在噪声中环境中能体现优势;另一种是根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC),反映了说话人声道的生理结构差异。MFCC分析着眼于人耳的听觉特性,MEL频率尺度更符合人耳的听觉特性,能很好的反映语音的特性。LPCC特征参数提取,是基于语音信号为自回归信号的假设,利用线性预测分析从而获得倒谱参数。LPCC参数的最大优点是它能够极为精确地估计语音参数,用很少的参数有效而又正确地表现语音波形机器频谱的性质,而且计算效率高,且对元音有较好的表示能力,它缺点在于不能体现辅音的个性特征,抗噪声性能较差,识别率容易受环境的影响。GFCC参数是根据人耳耳蜗的听觉响应特性模拟而来,通过Gammatone滤波器模拟人耳处理声音的过程,即Gammatone滤波器倒谱系数,在说话人识别系统中的表现要优于MFCC和LPCC。因此,采用MFCC、LPCC、GFCC组合特征参数,能够有效地取长补短,使得声纹识别系统具有较好的识别率和稳定性。
目前声纹识别系统中的模式匹配方法主要有概率统计方法、动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经网络方法(ANN)、支持向量机(SVM)、动态贝叶斯网络(DBN)技术以及这些方法的组合技术等。
目前在文本无关说话人识别中,概率统计方法使用较为普遍,特别是高斯混合模型(GMM),利用语音中的说话人信息在短时间内较为平稳,通过对稳态特征如基音、声门增益等的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。但是训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。
发明内容
本申请通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别,以解决现有技术中利用单一语音参数进行声纹识别的识别准确率不高以及声纹识别系统不稳定的技术问题。
为解决上述技术问题,本申请采用以下技术方案予以实现:
一种基于多类型组合特征参数的声纹识别方法,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
其中步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件,语音与文本无关的连续语音。
步骤S2中的语音信号的预处理,主要包括预加重、分帧和加窗处理。
1、预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高倍频大约在800Hz以上按6dB/倍频跌落,所以求语音信号频谱,频率越高对应的成分越小,高频部分的频谱也越难求,为此要进行预加重处理。其目的是要提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般在语音信号数字化之后,且预加重滤波器是一阶的,其滤波器的实现形式:H(z)=1-u*z-1,其中u一般在(0.9,1)之间。截取一段语音信号,其中采样频率为16Khz,量化比特位为16,随意选取256个采样值。
2、分帧、加窗:由于语音信号具有短时平稳性,预处理完成后需对语音信号进行分帧、加窗处理,便于用短时分析技术对语音信号进行处理。通常情况下,每秒钟的帧数约为33~100帧,分帧既可采用连续分段的方法,也可采用交叠分段的方法,但后者可以使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移和帧长的比值一般取为(0~1/2)。一边将语音信号用可移动有限长度的窗口进行截取即分帧,通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。
语音信号经过预处理之后,将提取特征参数,特征参数的选择应当满足几个原则:第一,易于从语音信号中提取特征参数;第二,不容易被模仿;第三,不随时间和空间变化,具有相对的稳定性;第四,能够有效识别不同的说话人。目前说话人确认系统主要依靠语音的低层次声学特征来进行识别,这些特征可分为时域特征和变换域特征。在本发明的步骤S3中,选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维特征向量。
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变化DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,本发明中N=256,然后对其进行快速傅立叶变换,最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱。其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n)。
其中L为MFCC参数的阶数。
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数。
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理。 其中Emax=max El,即语音段中最大的对数能量。
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点模型,
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器。LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法(即Durbin算法)。
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱 定义为x(n)的Z变换的对数反Z变换,即为
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的。LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数。实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率。
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律。语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号。h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的。正交多项式的一阶系数Δcm(n)如式(10)所示。
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合。所以按照式(10)可以得到MFCC、LPCC、能量的一阶动态参数。
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N(本发明中取N=256)的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfi+φi)U(t),t≥0,1≤i≤N (12)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数,实验表明n=4时能够很好的模拟人耳耳蜗的滤波特性。
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数,本发明采用的是N=64,即由64个Gammatone滤波器叠加成的带通滤波器组实现耳蜗模型。各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比。每个滤波器中心频率确定后,相应的带宽可由式(14)获得。
(3)Gammatone滤波器组滤波。对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理。得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n)。
进一步地,步骤S3中提取得到的72维组合特征参数,可能含有说话人个性特征、话语信息特征等较大的冗余量,所以采用遗传算法筛选出能够表征说话人语音个性特征的特征参量,同时也减少了特征量的维度,提高了系统运行的效率和识别率。
进一步地,步骤S4中遗传算法的具体步骤包括:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
其中步骤A1中,初始种群数为100,步骤S3所提取的72维特征参数,因此每个个体也为72位二进制数,其中每个个体中的1表示选择该维度的特征参数,0表示未选中该维度的特征,并且以GMM-UBM识别过程中的等概率EER作为评价函数,使其获得最小值。
进一步地,在训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。用GMM-UBM模型对测试语音进行识别。步骤S5中具体包括:
高斯混合模型GMM是单一的高斯密度函数的扩展,设有M个单一高斯概率分布函数,一个高斯组合概率分布的定义为:
单一的高斯概率密度函数表示为:
首先根据每个说话人的语音进行训练得到一组参数:权值,均值,协方差矩阵用来表征说话人的身份,这就需要对各个参数进行估计,也称为模型训练;
UBM训练过程:只用一个UBM代表所以说话人统计的平均语音特征,UBM训练过程是一个自适应的阶段,实际的应用中可以不断的扩充语音库,用不断增加的语音库来训练得到UBM,似然率计算如下式:
其中 和 为高斯对角矩阵的均值和方差参数;
UBM自适应过程:使用最大后验概率MAP对UBM模型的均值μi进行自适应:给定一个UBM模型和说话人X={x1,x2,....xt},得到
由上式得高斯模型均值自适应公式为:μi=αEi(x)+(1-α)μi,每个说话人的模型是在UBM上根据说话人的训练语音自适应得到的。
进一步地,说话人的识别过程可看作一个假设检验问题,步骤S6具体包括:通过测试说话人的语音,与语音库中建立的语音模板进行匹配,来获得测试语音的身份,假设H0为输入语音,X为目标说话人,H1为冒充者语音,一个对数似然比分数定义为:
S(X)=log{p(H0)/p(H1)} (21)
通过计算似然得分,最大似然得分即为目标说话人。
与现有技术相比,本申请提供的技术方案,具有的技术效果或优点是:有效地提高了声纹识别的识别准确率和系统稳定性。
附图说明
图1为本发明的工作流程图;
图2为本发明的遗传算法的工作流程图。
具体实施方式
本申请实施例通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别,以解决现有技术中利用单一语音参数进行声纹识别的识别准确率不高以及声纹识别系统不稳定的技术问题。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式,对上述技术方案进行详细的说明。
实施例
一种基于多类型组合特征参数的声纹识别方法,其特征在于,包括如下步骤:
S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组成多维特征向量,其中:MFCC为梅尔频率倒谱系数,LPCC为线性预测倒谱系数,△MFCC为MFCC的一阶差分,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
S4:利用遗传算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率EER作为评价函数,选取使得等错误率EER最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经遗传算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人。
如图1所示,为本发明的工作流程图。
其中步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件,语音与文本无关的连续语音。本实施例的实验录制了10个人的小语音库,其中6男4女。为提高语音质量,用Cool Edit软件去除静音段,并将噪声衰减10dB,除此之外,本实施例也采用了国际上研究声纹识别的通用的TIMIT语音库,选取了60个人的语音作为实验的样本。
步骤S2中的语音信号的预处理,主要包括预加重、分帧和加窗处理。
1、预加重:由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高倍频大约在800Hz以上按6dB/倍频跌落,所以求语音信号频谱,频率越高对应的成分越小,高频部分的频谱也越难求,为此要进行预加重处理。其目的是要提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般在语音信号数字化之后,且预加重滤波器是一阶的,其滤波器的实现形式:H(z)=1-u*z-1,其中u一般在(0.9,1)之间。本实施例中u=0.95,即H(z)=1-0.95*z-1。截取一段语音信号,其中采样频率为16Khz,量化比特位为16,随意选取256个采样值。
2、分帧、加窗:由于语音信号具有短时平稳性,预处理完成后需对语音信号进行分帧、加窗处理,便于用短时分析技术对语音信号进行处理。通常情况下,每秒钟的帧数约为33~100帧,分帧既可采用连续分段的方法,也可采用交叠分段的方法,但后者可以使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移和帧长的比值一般取为(0~1/2)。本实施例中帧长为256(32ms),帧移为100。一边将语音信号用可移动有限长度的窗口进行截取即分帧,通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。
语音信号经过预处理之后,将提取特征参数,特征参数的选择应当满足几个原则:第一,易于从语音信号中提取特征参数;第二,不容易被模仿;第三,不随时间和空间变化,具有相对的稳定性;第四,能够有效识别不同的说话人。目前说话人确认系统主要依靠语音的低层次声学特征来进行识别,这些特征可分为时域特征和变换域特征。在本实施例的步骤S3中,选取12维MFCC,12维△MFCC,12维LPCC,12维△LPCC,1维能量参数,1维能量的一阶差分参数,22维GFCC,组成72维组合特征参数。
1、MFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变化DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N的序列,本发明中N=256,然后对其进行快速傅立叶变换,最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)对频谱X(k)去平方求得能量谱,然后通过Mel频率滤波器进行平滑,并消除谐波,得到相应的Mel频谱。其中Mel频率滤波器组是根据声音的掩蔽效应,在语音的频谱范围内设置的若干个三角形带通滤波器Hm(k)(0≤m≤M,M为滤波器的个数),其中心频率为f(m),各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽。
三角形带通滤波器组的传递函数可用下式表示:
(3)对Mel滤波器组输出的Mel谱取按下式计算对数得到对数频谱S(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱S(m)进行离散余弦变换DCT,得到MFCC参数c(n)。
其中L为MFCC参数的阶数。
2、短时归一化能量特征参数提取的具体步骤如下:
(1)给定语音段中的长度为N的一帧{Si(n),n=1,2,…,N},计算该帧的短时对数能量的公式如下,其中L是语音段的帧数。
(2)由于不同语音段不同语音帧的能量差别比较大,为了使其能够于前面的倒谱系数一起作为向量计算,需要进行归一化处理。 其中Emax=max El,即语音段中最大的对数能量。
3、LPCC特征参数提取的具体步骤如下:
(1)求解线性预测LPC:在线性预测(LPC)分析中,声道模型表示为式(6)的全极点模型,
式中p是LPC分析的阶数,ak为线性预测系数(k=1,2,…,p),A(z)为逆滤波器。LPC的分析就是求解线性预测系数ak,本发明采用基于自相关的递推求解公式法(即Durbin算法)。
(2)求LPC的倒谱系数LPCC:已预处理的语音信号x(n)复倒谱 定义为x(n)的Z变换的对数反Z变换,即为:
只考虑X(z)的模,忽略它的相位,就得到信号的倒谱c(n)为:
LPCC不是由输入语音信号x(n),而是由LPC系数an得到的。LPCC参数Cn的递推公式:
4、动态特征参数:△MFCC、△LPCC、一阶差分能量参数提取的具体步骤如下:
前面介绍的MFCC、LPCC、能量特征参数只表征了语音谱的及时信息,属于静态参数。实验表明,语音谱的动态信息中也包含有与说话人有关的信息,可以用来提高说话人识别系统的识别率。
(1)语音倒谱的动态信息是表征语音特征参数随时间变化的规律。语音倒谱随时间的变化可用下式表达:
公式中,cm表示第m阶倒谱系数,n和k表示倒谱系数在时间轴上的序号。h(k)(k=-K,-K+1,…,K-1,K)为长度是2K+1的窗函数,它通常是对称的。正交多项式的一阶系数Δcm(n)如式(31)所示。
(2)实际应用中窗函数多采用矩形窗,K通常取2,此时动态参数就称为当前帧的前两帧和后两帧参数的线性组合。所以按照式(31)可以得到MFCC、LPCC、能量的一阶动态参数。
5、GFCC特征参数提取的具体步骤如下:
(1)对预处理后的语音信号进行短时傅里叶变换,得到其频谱。这里采用快速傅里叶变换FFT来对每一帧语音信号进行离散余弦变换DCT。先将每一帧时域信号x(n)后补若干个0以形成长度为N(本发明中取N=256)的序列,然后对其进行快速傅立叶变换,最后得到线性频谱X(k)。X(k)与x(n)之间的转换公式为:
(2)获得Gammatone滤波器组,Gammatone滤波器是一个标准的耳蜗听觉滤波器,该滤波器的时域脉冲响应为:
g(t)=Atn-1e-2πbtcos(2πfi+φi)U(t),t≥0,1≤i≤N (33)
式中,A为滤波器增益,fi是滤波器的中心频率,U(t)是阶跃函数,φi是相位,为了简化模型,令φi为0,n是滤波器的阶数,实验表明n=4时能够很好的模拟人耳耳蜗的滤波特性。
bi是滤波器的衰减因子,它决定了脉冲响应的衰减速度,并与滤波器的带宽有关,bi=1.019ERB(fi),在听觉心理学中,
式中,N为滤波器的个数,本发明采用的是N=64,即由64个Gammatone滤波器叠加成的带通滤波器组实现耳蜗模型。各滤波器组的中心频率在ERB域上等间距分布,整个滤波器组的频率覆盖范围为80Hz-8000Hz,每个中心频率的计算公式如下:
其中fH为滤波器截止频率,vi是滤波器重叠因子,用来指定相邻滤波器之间重叠百分比。每个滤波器中心频率确定后,相应的带宽可由式(35)获得。
(3)Gammatone滤波器组滤波。对步骤(1)得到的功率谱X(k)取平方得到能量谱,然后用Gammatone滤波组Gm(k)进行滤波处理。得到对数频谱s(m),用来压缩语音谱的动态范围,并将频域中噪声的乘性成分转化成加性成分。
(4)对对数频谱s(m)进行离散余弦变换DCT,得到GFCC参数G(n)。
进一步地,步骤S3中提取得到的72维组合特征参数,可能含有说话人个性特征、话语信息特征等较大的冗余量,所以采用遗传算法筛选出能够表征说话人语音个性特征的特征参量,同时也减少了特征量的维度,提高了系统运行的效率和识别率。
如图2所示,步骤S4中的遗传算法具有包括以下步骤:
A1:生成初始种群;
A2:选择:根据初始种群矩阵中的适应度值进行排序,并将排序后的矩阵复制到初排序的种群矩阵中;
A3:交叉:利用初排序的种群矩阵进行交叉操作,随机产生一个范围在[0,1]的数,用以比较交叉概率并确定交叉位置,若交叉位置是1或者72,则不予交叉直接进入下一次循环;若交叉位置在1-72范围内,则执行从该位置起的两相邻之间个体的互相交叉,并储存交叉结果,最终输出交叉后的种群矩阵;
A4:变异:利用交叉后的种群矩阵进行变异操作,随机产生一个范围在[0,1]的数,用以比较变异概率并确定变异位置,变异位置是产生自1-72的随机数,然后执行变异操作,即将该位置的值取反,最终储存变异后的种群矩阵;
A5:更新:更新最终变异后的种群矩阵的适应度函数与最佳位置,并将适应度函数存入适应度值矩阵中,用以对比误差,最佳适应度值保存在每一代最佳适应度值矩阵中,获得最佳适应度值的个体保存在特征选择后的个体矩阵中,该个体中1的个数即选中的特征的维度保存在特征选择后的特征维数矩阵中;
A6:计数器加一,并判断两次间的适应度函数误差是否小于0.00001,若小于0.00001的次数达到30,或计数器的值达到50,则进入步骤A7,否则,继续步骤A2;
A7:输出最佳特征参数。
其中步骤A1中,初始种群数为100,步骤S3所提取的72维特征参数,因此每个个体也为72位二进制数,其中每个个体中的1表示选择该维度的特征参数,0表示未选中该维度的特征,并且以GMM-UBM识别过程中的等概率EER作为评价函数,使其获得最小值。
进一步地,在训练语音不足时,基于GMM的声纹识别系统的识别率急剧下降。为了克服因训练语音不够的而不能够很好的刻画说话人的语音特征的缺陷,而引入了通用背景模型(UBM),从而产生了基于GMM-UBM的说话人识别。用GMM-UBM模型对测试语音进行识别。步骤S5中具体包括:
高斯混合模型GMM是单一的高斯密度函数的扩展,设有M个单一高斯概率分布函数,一个高斯组合概率分布的定义为:
单一的高斯概率密度函数表示为:
首先根据每个说话人的语音进行训练得到一组参数:权值,均值,协方差矩阵用来表征说话人的身份,这就需要对各个参数进行估计,也称为模型训练;
UBM训练过程:只用一个UBM代表所以说话人统计的平均语音特征,UBM训练过程是一个自适应的阶段,实际的应用中可以不断的扩充语音库,用不断增加的语音库来训练得到UBM,似然率计算如下式:
其中 和 为高斯对角矩阵的均值和方差参数;
UBM自适应过程:使用最大后验概率MAP对UBM模型的均值μi进行自适应:给定一个UBM模型和说话人X={x1,x2,....xt},得到
由上式得高斯模型均值自适应公式为:μi=αEi(x)+(1-α)μi,每个说话人的模型是在UBM上根据说话人的训练语音自适应得到的。
进一步地,说话人的识别过程可看作一个假设检验问题,步骤S6具体包括:通过测试说话人的语音,与语音库中建立的语音模板进行匹配,来获得测试语音的身份,假设H0为输入语音,X为目标说话人,H1为冒充者语音,一个对数似然比分数定义为:
S(X)=log{p(H0)/p(H1)} (42)
通过计算似然得分,最大似然得分即为目标说话人。
本申请的上述实施例中,通过提供一种基于多类型组合特征参数的声纹识别方法,包括以下步骤:语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取:即提取MFCC、LPCC、△MFCC、△LPCC、能量、能量的一阶差分、GFCC特征参数共同组成多维特征向量、采用遗传算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别。与单一的语音信号特征参数进行声纹识别相比,采用组合特征参数并使用GMM-UBM模型的声纹识别系统,有效地提高了声纹识别的识别准确率和系统稳定性。
应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。
基于多类型组合特征参数的声纹识别方法专利购买费用说明
Q:办理专利转让的流程及所需资料
A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。
1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。
2:按规定缴纳著录项目变更手续费。
3:同时提交相关证明文件原件。
4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。
Q:专利著录项目变更费用如何缴交
A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式
Q:专利转让变更,多久能出结果
A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。
动态评分
0.0