大词汇连续汉语语音的MLP声学特征的研究

江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

大词汇连续汉语语音的MLP声学特征的研究

12月20日浅时光投稿

　　大词汇连续汉语语音的MLP声学特征的研究
　　摘要：短时声学特征参数如MFCC，PLP作为输入向量的高斯混合模型（GMM）的隐马尔可夫模型（HMM）的经典模型在大词汇连续语音识别系统（LVCSR）已取得了良好识别效果。但针对短时声学特征区分性差的特点，本文提出采用神经网络多层感知器（MLP）产生的两种类型差异特征HATs与TANDEM代替短时特征，分别训练GMM参数模型。实验结果表明，差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统；为了更进一步提高系统识别率，该文又将两种类型差异特征HATs与TANDEM进行复合，构成MLPs特征流重建GMHMM，系统的错字率（CER）有23。8的明显改善。关键词：多层感知器；差异特征；隐马尔可夫；高斯混合模型MLPFeaturesforLargeVocabularyContinuousMandarinSpeechRecognitionSystem（1。ComputerScienceDept。，SouthwestForestryUniversity，Kunming650224，C2。LehrstuhlFurInformatik6ComputerScienceDepartmentRWTHAachenUniversity，Aachen52056，Germany）Abstract：TypicallyHiddenMarkovModel（HMM）inlargevocabularycontinuousspeechrecognitionsystem（LVCSR），usingshorttermacousticfeaturesvectors（MFCCPLP）asinputfeaturestotheGaussianmixturemodel（GMM），hasachievedgoodrecognitionresults。However，forthepooroftheseshorttermfeaturesondiscrimination，neuralnetworkmultilayerperceptron（MLP）areusedtoproducetwotypesofdiscriminativefeaturesHATsandTANDEMinsteadofshortfeatures，andrespectively，thecorrespondingGMMparametermodelsaretrained。ExperimentalresultsshowthattheGMHMMtheLVCSRTofurtherimprovethesystemrecognitionrate，thetwotypesofdiscriminativefeaturesHATsandTANDEMarecombinedasMLPsfeatureflowtoretrainGMHMM，thatleadstoanabsolutereductionofthecharactererrorrate（CER）ofabout23。8。Keywords：MLP；HMM；GMM对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中，语音识别系统的特征提取成分主要包括频谱包络预测，特别是经过某些简单变化后的特征，目前前端大部分是基于短时轨迹（约10ms）信号分析的美尔倒谱（MFC）或是感知线性预测（PLP）。但这些传统的短时特征参数存在着对信号变化过于敏感，不能反映连续帧之间的相关特性，区分性差等方面的不足。近年来，国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN，其中由Berkeley国际计算机学院（ICSI）提出用基于MLPs的特征取代传统特征，系统的识别率得到了明显改善〔13〕。基于MLPs特征的差异性的优势和GMMHMM模型的成熟性，本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量，重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性，LVCSR的识别率得到了明显的改善。1基于MLP的差异声学特征为弥补了来自言语感知和倒谱的短时分析的不足，获取时序相关联的多帧语音信息（即音素信息），文本引入了神经网络ANN的MLP，以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。1。1长时HATs特征参数HATs特征基于人对不同频带的感觉不同，HATs特征提取将由两级MLP实现〔45〕，第一级由15个MLP即将关键频带数分为15个，第二级由1个MLP构成。HATs的基本实现步骤：1）依关键频带，分别计算每个短时窗（10ms）对应的关键频带的能量的log值（即为短时频段能量参数）。2）分别将各频带短时能量参数串联为0。5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联（2525151），作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P（PjXt）。因此，在语音识别系统中，每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验，所产生的特征为语音识别提供了音素差别性能力。3）采用softmax函数将每一个MLP的概率输出汇总为1，实现归一化。xij是来自隐藏单元i的输入；wij是隐藏单元i与输出单元j的权值；zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在01之间。因为每个关键频带对不同的音素反映不同，所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率，对当前帧所属音素的认定作最后的决策。从不同的实验表明，针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输出都转化为同一级别，这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层，即隐藏激活hiddenactivationTRAPS（HATS）。第二级的输入单元的数目为15h，h是第一级每个MLP的隐藏单元数目，本文采用60个隐藏单元。最后，从第二级MLP计算出音素后验概率。由于系统采用71个音素〔10〕，所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图1所示。本文采用的另一个MLP特征是中期特征TANDEM〔6〕。其MLP的网络结构如图2所示。由于本文采用MFCC作为常规HMM的输入特征，为了最大化收集新信息，该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成，抽取相邻9帧的PLP和基音，以429（42维，9帧）为MLP的输入，15000个隐藏单元。隐藏单元依然用sigmoid函数，输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。2MLPs声学特征的混合本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。HATs与TANDEM是采用两套MLP系统产生的，也即每一帧都有两个音素后验概率。在文献〔7〕中指出，将其两种后验概率进行复合后，其MLP的特征更有效。为此，本文采用以下步骤实现音素后验的复合〔8〕，其过程如图3所示：2）用log计算音素后验向量：为了让音素后验向量与传统特征复合，采用log函数计算使之更像高斯分布；3）用PCA实现降维和正交化：为了后期与其它特征复合，71维的音素后验向量需进行降维处理；因为高斯密度函数常认为是相互独立，对角协方差的，所以音素后验向量需要正交化，进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。3模型训练4语料库5实验结果及结论表2实验结果清楚表明，采用MLP的特征比传统的短时特征都有良好的识别特性，TANDEM特征系统的CER约有0。5的改善，HATs的特性比TANDEM更好，系统的CER减少约12。5，采用MLPs复合声学特征，系统的识别率有了最大的提高，CER得到了23。8的改善。本文复合的声学特征为中时（9帧）和长时（51帧）的信息，能否将短时特征再与其复合以提高系统识别率，还待进一步研究。参考文献：〔2〕JingZheng。CombiningDiscriminativeFeature，Transform，andModelTrainingforLargeVocabularySpeechRecognition〔C〕。inProc。IEEEInt。Conf。onAcoustics，Speech，andSignalProcessing，Honolulu，Hawaii，2007（4）：633636。〔3〕阎平凡，张长水，人工神经网络与模拟进化计算〔M〕。清华大学出版社2005。〔4〕wangMY。Buildingahighlyaccuratemandarinspeechrecognizer〔J〕。inProc。IEEEAutomaticSpeechRecognitionandUnderstandingWorkshop，Kyoto，Japan，Dec。，2007：490495。〔5〕ChenB。LearninglongtermtemporalfeaturesinLVCSRusingneuralnetworks〔J〕。inProc。Int。Conf。onSpokenLanguageProcessing，JejuIsland，Korea，Oct。，2004。〔6〕HermanskyH，EllisDPW，SharmaS。Tandemconnectionistfeaturestreamextractionforconventionalhmmsystems〔C〕。inProc。IEEEInt。Conf。onAcoustics，Speech，andSignalProcessing，Istanbul，Turkey，2000：16351638。〔7〕ValenteF，HermanskyH。Combinationofacousticclassifiersbasedondempstershafertheoryofevidence〔J〕。inProc。IEEEInt。Conf。onAcoustics，Speech，andSignalProcessing，Honolulu，HI，USA，Apr。，2007。〔8〕MorganN，ChenBY，ZhuQ，etal。TrappingConversationalSpeech：ExtendingTRAPTandemapproachestoconversationaltelephonespeechrecognition〔J〕。inProceedingsofIEEEICASSP，Montreal，May2004。〔9〕PlahlC，HoffmEisterB，HwangM，etal。RecentImprovementsoftheRWTHGALEMandarinLVCSRSystem〔J〕。InInterspeech，Brisbane，Australia，September2008：24262429。

投诉评论

我国林业政策在林业发展中的作用分析论文1现阶段的林业政策对林业的影响1。1保护环境，促进生物多样性发展大力发展林业生态建设，全民义务植树造林，对保护生物多样性和动植物生境具有重要作用。林区是所有生物资源……加强建筑管理中工程质量监管的措施论文1工程质量监管的本质在建筑工程的实际施工过程中，要想保证建筑工程的质量，提高建筑工程的安全系数，就需要相关执法范围在建筑工程的施工中给予适当的监管，按照相关的安全法规进行……住宅小区建筑电气工程设计要点摘要：在现代经济发展速度日益提升背景下，相应扩大了城市建设规模，在一定程度上提升了住宅小区管理智能化水平，因此对于建筑电气的设计要求也在不断提升。此次研究主要是分析住宅小区建筑……污水所含物质对农业生产的危害水处理技术：当今，在淡水资源十分紧张的情况下，许多地方利用污水灌溉农田。未经处理的污水，既含有农作物生长所必需的养分，又含有有毒成分。盲目使用污水，不仅会污染土壤，而且还会影响……教师教育过程中教师职业倦怠的组织应对论文【论文关键词】职业倦怠教师教育职前培养入职教育在职培训【论文摘要】教师职业倦怠的普遍现象已经引起我国教育界、心理学界的广泛关注。教师教育作为教师培养和成长的主要载体，在整……公司文化建设论文如今一个企业想要获得更好的发展，其企业文化需要不断的完善。接下来小编搜集了公司文化建设论文，仅供大家参考，希望帮助到大家。篇一：公司文化建设论文一、企业文化建设对企业建设……民族传统体育文化输出面临的困境分析论文在全球化的背景下，我们国家民族传统体育文化输出面临着传统体育文化地位缺少正确认识、缺少主动输出意识。因此，这就需要我们对民族传统体育文化输出面临的问题进行分析，从而提出有效的途……大词汇连续汉语语音的MLP声学特征的研究大词汇连续汉语语音的MLP声学特征的研究摘要：短时声学特征参数如MFCC，PLP作为输入向量的高斯混合模型（GMM）的隐马尔可夫模型（HMM）的经典模型在大词汇连续语音识……用身体说话摘要：随着信息时代的到来，世界上不同文化之间的交流不再遥远，各国人们之间的往来和接触日益频繁，有统计数字表明，在语言不通的情况下，人与人之间的交流有55是靠无声的语言来传递的。……论科学美及其美感详细内容（1）内容提要本文揭示了人们长期忽视科学美的主要原因，论述了科学美的本质特征：1科学美是来源于自然美，并能为我们理智所领会的一种和谐，科学美的实质在予反映自然界的和谐；2科学美与艺术……风力发电商业化问题1风力发电的兴起1973年的石油危机之前，风力发电技术仍处于科学研究阶段，主要在高校和科研单位开发研究，政府从技术储备的角度提供少量科研费。1973年以后，风力发电作为能……最新新农村文化建设论文范例当前我国的农业和农村发展仍然处于一个艰难的爬坡阶段，农民、农业和农村仍然是我国发展中最薄弱的环节。在全面建设小康社会，实现现代化的进程中，最艰巨、最繁重的任务在农村。在社会主义……

<<<<<<－>>>>>>

当前我国农民非制度化政治参与走向制度化的对策思考浅论科技型中小企业财务管理妊娠高血压疾病的护理心得农业科技推广风险分析及防范探究论文基于网络平台的信息传播多元化整合路径研究论文父母之于幼儿阅读能力培养的思与行论文研究分析建筑工程管理技能的创新国际广告传播中的文化霸权主义和文化帝国主义谈高职数学体会建筑装饰艺术可持续发展对策论文 EPON技术在三网融合中的有效运用论文浅谈金世宗时期汉化与旧俗的关系青春，不能再挥霍打造公众号裂变循环系统，最轻松每天赚300 学生演讲家风家教演讲稿马克休斯滕哈赫已经稳定了曼联的局面，接下来他需要的是时间高三励志文章精选江浙沪周边附近自驾旅游有哪些好玩的地方推荐？温暖谢晖做出重大决定！拒绝给大连王牌踢首发的特权，已让他打替补丽芙泰勒（丽芙泰勒现在的老公）社科院报告：民间组织越来越多资金来自国内绿豆粥的作用是什么体育教学期末工作总结

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利