安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

NLP系列之词向量NNLM(八)

5月25日 先锋客投稿
  在上一期中遗留了以下问题:矩阵X的维度经常改变由于大部分词并不共现而导致的稀疏性矩阵维度过高带来的高计算复杂度
  在本期中将引入神经网络语言模型来解决上述问题。
  咱们先来了解下什么是语言模型:
  语言模型是一个可以计算一个句子出现的概率的模型。一个句子S是由n个词语
  组成的。那么,根据贝叶斯公式,我们可以计算:
  但是,像
  这种概率,参数空间是非常大的,太多可能,难以计算。同时,这种很多词汇的组合出现在语料库中的概率是大概率为零的,非常稀疏,整个句子的概率
  也会因为与其相乘变为0。这也是所谓的curseofdimensionality。为了解决这个问题,著名的马尔可夫假设被引入了:在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。
  基于马尔可夫假设,ngram模型被提出了,其核心思想是:第i个词仅与其前面(n1)个词有关
  所以当n1时,计算句子的概率就变成了:
  当n2时:
  依次类推,n3,4。。。。但是一般用的都是二元,三元模型,这就是Ngram
  神经网络语言模型:
  Ngram作为传统方法虽然有不俗的效果,但它依然有如下问题:无法利用大于n距离的词汇信息无法计算词汇间的相似度,无法应付从未出现过的词组(outofvocabulary)
  为了解决上面的问题,Bengio等人于2003年提出了第一篇运用神经网络搭建语言模型的文章:ANeuralProbabilisticLanguageModel,也被称作NNLM(NeuralNetworkLanguageModel)。这也是第一次提出了词向量的概念,即将文本用稠密,低维,连续的向量表达。NNLM的主要任务是利用前n1个词汇,预测第n个词汇。
  NNLM整体的框架非常的简单,所以直接上框架图:
  可以看到,NNLM主要由三层网络构成:输入层,隐含层,输出层。
  输入层
  输入层一共有n1个词汇的输入,每个词汇将由onehotvector的形式编码。
  对于每个onehotvector(
  ),它们将会与Embeddingsize为m的矩阵C(
  )相乘,得到一个distributionvector(
  )。其中,
  为词表的大小(即语料库中出现过的所有唯一词汇数量),m为embeddingsize,通常比
  小很多,这样也就达到了降维的目的。C这个参数矩阵其实相当于一本字典,每一行都储存了相应位置词汇的词向量,每当有词汇输入的时候,根据词汇的onehotvector,C提取出相应行的向量,即为该词汇的词向量。C由神经网络的backpropagation训练,不断优化,从而得到更好的词向量,即更优秀的表达能力。
  隐含层
  得到所有词的词向量后(即一个
  的矩阵),为了利用所有词汇信息,将它们concatenate到一起,得到一个
  的向量
  隐含层为一个简单的tanh激活层,其公式为:
  其维度信息为:
  输出层
  输出层利用了隐含层的输出以及原始合并词向量,最后套上softmax,其公式为:
  其维度信息为:
  如果不想利用原始合并词向量的信息的话,可以将W设为零矩阵。
  其损失函数为:
  实验结果表明,NNLM模型比smoothedtrigram(平均分布,unigram,bigram,trigram的加权结果)表现更好。
  NNLM的问题:计算复杂度过大参数较多
  因而,基于NNLM,研究人员又提出了word2vec、GloVe、EMLo、GPT及BERT等词向量生成模型,这些模型在实际中有广泛应用。
  我们会在后续文章中详细介绍。
投诉 评论 转载

NLP系列之词向量NNLM(八)在上一期中遗留了以下问题:矩阵X的维度经常改变由于大部分词并不共现而导致的稀疏性矩阵维度过高带来的高计算复杂度在本期中将引入神经网络语言模型来解决上述问题。咱们先来……山西榆次薛有毅原创七律忆小学老师七律忆小学老师梦想驰翔在杏坛,教青育稚亦心欢。一支粉笔春秋写,三尺讲台家国端。桃李栋梁当剪匠,龙蛇雄杰做修官。挑灯陪读那知苦,批……好生活是苦出来的,人生是奋斗出来的只要是一个正常的人,谁不想自己的日子过得好一些呢?可这个社会是公平的,世界也是公道的,做人要想日子过得好,就得先苦后甜,这就是人生的辩证法,做人需要明白这个道理,好生活是苦出来……情不知所起,一往而深人这一生有许多遇见,总有一场遇见,让人心动,走过岁月,历尽沧桑,还在心里如初见。于千万年之前,你在我的心里种下一粒种子,于万千年之后,种子慢慢长成了一棵开花的树。后……边城他爱不爱你,一开口就知道了你,错过一个人吗?或许是因为少不更事,或许是因为父母阻挠,或许是因为后知后觉,或许是因为缘分太浅总之,各种各样的原因,错过了。当你醒悟过来才发现,错过的那个人……惠民县国家级电商进农村综合示范项目电商普及培训(姜楼站)开班9月3日,惠民县国家级电商进农村综合示范项目电商普及培训(姜楼站)在姜楼镇政府会议室顺利开班。来自姜楼镇的机关干部、大学生村官、第一书记、村(居)两委成员、建档立卡贫困户、农村……国际诗讯中国石泉秀之美汉江岸边秀之美作者:周传利一路莲步踩踏出江水翻滚的浪花转身的足迹捡回失去的光华河风动起香袅袅的蛮腰柳条摇曳凭添妩媚妖娆江水倒影窈窕淑女着锦袍……超市内的哭声无论如何,今天也要带着孙子把那个玩具买回来,真的,我已经下了很大决心。前天下午,和往常一样带6岁孙子去买馍和菜,对孩子说,今儿破例给他买小吃时,他说省着钱,我啥也不吃,就……前行在唯美的路上打卡210天!天还是那个天,夜还是那个夜,天蓝蓝,夜茫茫,伴随人生路不断前行不改变!夜深人静的时候,心气平和,这个时候就是提笔的绝佳时机,昨晚的书写反反复复,没有最好,只……在头条你学到了什么提出这个问题,感觉会得到成千上万,与众不同,别具一格,五花八门,千奇百怪,形形色色,各种各样的答案。因为每个人的出发点和目的不一样,现在是个包容度大,积极向上,树立正确价值观的……保德县机关幼儿园举行庆祝第37个教师节活动为进一步推动师德师风建设,在全园营造尊师重教的浓厚氛围,9月9日上午,县机关幼儿园开展了主题为赓续百年初心、担当育人使命的教师节庆祝活动。县教育科技局、第八小学相关负责人,家长……有哪些文艺到爆的句子?1。hr我天生不合群。一向话少,时而冷场。有过被孤立,有过被诟病。有过自我质疑,也有到过崩坏的边缘。合也无味,孤也无味。党同伐异,这是人性。……
低情商的人有多可怕梦里妈回来了的诗歌带有春夏秋冬的诗句给你一把伞资治通鉴梁纪梁纪的原文及翻译享受当下,活得坦然你不知道明天会发生什么?人在迷茫时,静下心来,你就赢了人间的极致孤独要懂得珍惜自己繁花落尽,倾听内心落花的声音没有母亲的母亲节你什么都舍不得扔,还谈什么生活质量微商发朋友圈怎样不会让客户审美疲劳水葫芦的作用我与书的那些事转基因大米营养成分如何挑选板蓝根的方法痞帅直男的爱情太可了!台湾爱情片实至名归,又一次看哭大众孙悟空的金箍棒第三方支付牌照为什么这么值钱迈克杰克逊24岁女儿又豪放了!白色蕾丝胸衣外穿,狂野穿搭引热体验作文800字这些老年人补充骨质的常用方法你都知道吗丧天良,男子15。8万元卖掉儿子后,跟妻子玩起了旅游炫富

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利