大词汇连续汉语语音的MLP声学特征的研究 摘要:短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有23。8的明显改善。关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型MLPFeaturesforLargeVocabularyContinuousMandarinSpeechRecognitionSystem(1。ComputerScienceDept。,SouthwestForestryUniversity,Kunming650224,C2。LehrstuhlFurInformatik6ComputerScienceDepartmentRWTHAachenUniversity,Aachen52056,Germany)Abstract:TypicallyHiddenMarkovModel(HMM)inlargevocabularycontinuousspeechrecognitionsystem(LVCSR),usingshorttermacousticfeaturesvectors(MFCCPLP)asinputfeaturestotheGaussianmixturemodel(GMM),hasachievedgoodrecognitionresults。However,forthepooroftheseshorttermfeaturesondiscrimination,neuralnetworkmultilayerperceptron(MLP)areusedtoproducetwotypesofdiscriminativefeaturesHATsandTANDEMinsteadofshortfeatures,andrespectively,thecorrespondingGMMparametermodelsaretrained。ExperimentalresultsshowthattheGMHMMtheLVCSRTofurtherimprovethesystemrecognitionrate,thetwotypesofdiscriminativefeaturesHATsandTANDEMarecombinedasMLPsfeatureflowtoretrainGMHMM,thatleadstoanabsolutereductionofthecharactererrorrate(CER)ofabout23。8。Keywords:MLP;HMM;GMM对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善〔13〕。基于MLPs特征的差异性的优势和GMMHMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。1基于MLP的差异声学特征为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。1。1长时HATs特征参数HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现〔45〕,第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:1)依关键频带,分别计算每个短时窗(10ms)对应的关键频带的能量的log值(即为短时频段能量参数)。2)分别将各频带短时能量参数串联为0。5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(2525151),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(PjXt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。3)采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在01之间。因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hiddenactivationTRAPS(HATS)。第二级的输入单元的数目为15h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素〔10〕,所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图1所示。本文采用的另一个MLP特征是中期特征TANDEM〔6〕。其MLP的网络结构如图2所示。由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以429(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。2MLPs声学特征的混合本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献〔7〕中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合〔8〕,其过程如图3所示:2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。3模型训练4语料库5实验结果及结论表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0。5的改善,HATs的特性比TANDEM更好,系统的CER减少约12。5,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了23。8的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。参考文献:〔2〕JingZheng。CombiningDiscriminativeFeature,Transform,andModelTrainingforLargeVocabularySpeechRecognition〔C〕。inProc。IEEEInt。Conf。onAcoustics,Speech,andSignalProcessing,Honolulu,Hawaii,2007(4):633636。〔3〕阎平凡,张长水,人工神经网络与模拟进化计算〔M〕。清华大学出版社2005。〔4〕wangMY。Buildingahighlyaccuratemandarinspeechrecognizer〔J〕。inProc。IEEEAutomaticSpeechRecognitionandUnderstandingWorkshop,Kyoto,Japan,Dec。,2007:490495。〔5〕ChenB。LearninglongtermtemporalfeaturesinLVCSRusingneuralnetworks〔J〕。inProc。Int。Conf。onSpokenLanguageProcessing,JejuIsland,Korea,Oct。,2004。〔6〕HermanskyH,EllisDPW,SharmaS。Tandemconnectionistfeaturestreamextractionforconventionalhmmsystems〔C〕。inProc。IEEEInt。Conf。onAcoustics,Speech,andSignalProcessing,Istanbul,Turkey,2000:16351638。〔7〕ValenteF,HermanskyH。Combinationofacousticclassifiersbasedondempstershafertheoryofevidence〔J〕。inProc。IEEEInt。Conf。onAcoustics,Speech,andSignalProcessing,Honolulu,HI,USA,Apr。,2007。〔8〕MorganN,ChenBY,ZhuQ,etal。TrappingConversationalSpeech:ExtendingTRAPTandemapproachestoconversationaltelephonespeechrecognition〔J〕。inProceedingsofIEEEICASSP,Montreal,May2004。〔9〕PlahlC,HoffmEisterB,HwangM,etal。RecentImprovementsoftheRWTHGALEMandarinLVCSRSystem〔J〕。InInterspeech,Brisbane,Australia,September2008:24262429。