安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

挑战单卡单日训练BERT,ViT作者推荐

4月20日 乔了了投稿
  Pine发自凹非寺
  量子位公众号QbitAI
  单个GPU,只花一天时间,能把BERT训练成什么样?
  现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型的真实性能如何。
  要知道在以往,大多数专业人员的关注点都在极端计算的条件下的语言模型性能。
  但这样的语言训练模型环境,对很多研究人员和从业人员是不可能存在的。
  因此这个单天单个GPU的挑战,就有网友称是一个最希望看到的基准。
  连ViT作者,谷歌大脑研究员LucasBeyer都发文推荐,称这是一个令人耳目一新的转变。
  具体的过程和结果如何,一起来看看~挑战过程
  这次研究的目标也很明确,就是反其道行之:缩小语言训练模型的算力,在有限的计算量的情况下如何达到BERT的性能水平。
  既然要缩小计算量,那第一步肯定是对模型作出一些限定。
  这也还是之前提到的,限定时间和GPU个数:单天单个GPU。
  关于GPU,研究人员分别选取了3个进行测试,即rtx2080ti、rtxa4000和rtxa6000,每个单元有4个CPU核和32GB内存。
  在限定计算量之后,就要对模型的其他参数进行一些调整,以进一步对BERT的实际适用性进行评估。
  这些调整包括初始数据设置、模型架构、训练以及数据集的改进。
  并且在调整的过程中,整体基调都是围绕实际使用进行的,避免跳转到专业的设置,为此,研究人员将所有内容都保持在PyTorch框架的实现级别上。
  先来说说初始数据设置,这部分可以简单概括为以下几点:将标记化的数据打包成长度为128的随机序列,不相关的片段用分割;删除cls标记,因为在训练前训练中加入它并没有对性能产生多大影响;将序列长度为64到96微小批量累积到大批量再处理。
  然后是对架构的修改,下图显示了不同模型在随着token数量的增加MLM任务损失的变化。
  结果很显然,一个模型损失的衰减很大程度地取决于模型的大小,而不是模型的类型。
  并且,因为每个token的性能与模型大小之间的关系紧密耦合,若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。
  不过对于同大小的所有模型,每个梯度效率是几乎保持不变的,因此可以在保证模型大小不变的情况下,选择能够通过快速搜索加速计算的架构。
  具体的优化和其他调整如下:减少注意力头的数量来降低梯度成本:禁用所有QKV偏差;禁用所有线性层偏差,通过加速梯度计算,不会对模型大小产生明显影响;实现比例正弦位置嵌入,相较于学习或非比例正弦嵌入有增量收益;LN的预标准化比后LN更有益;去除非线性头部并无影响。
  接下来便要对训练进行设置,具体也就不再赘述,直接来看相关调整:优化器依旧是A设定LearningRate计划和批量大小;丢掉Dropout环节。(因为Dropout会导致每秒更新的净减少)
  而在数据集方面,研究团队采用了两种基于数据的途径来更好地缩小规模,分别是以各种方式过滤、处理或排序现有的数据和交换数据源,具体可以看下表。
  性能接近最初的BERT
  在调整完各种参数后,这个单卡一天的BERT性能到底如何?直接看看最终的数据!
  在下游性能评估时是通过GLUE来进行的,下表能够看到在3个不同显卡上的得分,非常接近最初的BERT。
  而当模型训练计算量为16倍时,即(2天,在8个GPU),依旧是一样的数据和设置,最终得到的结果比最初的BERT提高了很多,达到了RoBERTa的性能水平。
  如果想了解更多,可以点击下面链接查看论文原文~
  论文原文:
  https:arxiv。orgabs2212。14034
  参考链接:
  https:twitter。comgiffmanastatus1608568387583737856
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态
投诉 评论

健康享晚年丨老年人用药,要远离十大误区老年人常同时患有多种慢性疾病,以高血压、糖尿病、冠心病、卒中、慢性阻塞性肺疾病、慢性肾脏病最为常见,患有多种疾病常常使用多种药物。此外,老年患者还常常出现衰弱、营养不良、睡眠障……被自己反复欺负的下属离职了,领导会是什么感受?根据我的亲身经历告诉你们是什么感觉。我之前在一家国企,女领导就是爱欺负人的性格,尤其是见不得别人过的比她好。单位里关系户多,只有我一个人是正常招聘进来的,所以她特别……短款毛呢外套怎么搭好看?我是时尚号作者,平时喜欢研究服装穿搭,希望回答对您有帮助!要说今年最火的外套,并非是以往的长款外套,反而是短款羊羔毛外套和毛呢外套,这种长度的上衣不挑身高,即使是小个子女……女人第一次怀孕,会感到恐惧忐忑么?该怎么调整?你好,很高兴回答你的问题,我是小河马的精分爸爸感谢邀请,虽然我是一个男的,但是作为朝夕相处的夫妻,整个孕期老婆的那种不安跟忐忑我都能深深的体会到。老婆怀孕的时候有一……得语文者得天下!学好语文的三大法宝这几天,各省高考成绩陆续出炉。而纵观那些高分考生,你会发现学霸们的数学、英语、理科综合都是趋向于满分。而拉开这些学霸差距的主要是语文。四川考生梁钧天,高考成绩……推荐五部2022值得一看的欧美恐怖电影,建议准备好男朋友X2022大尺度恐怖片它来了,1979年,一支颜色电影剧组租用了德克萨斯州的一栋乡村小屋,房东是一对行为诡异隐居在此的老夫妇,他们似乎对年轻的客人特别感兴趣,总是在远处偷……农民能写出点小文章表达农民意愿的是些什么人?比起其他行业的人来,应该说农民这个群体真正能写小文章,表达自己意愿的还是不多。但也有这么一些人,几十年身处农村,既经历过艰苦卓绝,顽强奋斗的公社集体生活,交公粮,修公路,修水库……是不是年龄大的人,比如六七十岁的人都不承认自己老了?心态我今年八十有一,你能说我还不老吗?老了!可比起那些高寿的的人,我又算得了老几。想当年年轻力壮时,讲气力,200斤多斤的石头能翻动,100多斤的人揹起能跑3km,都不在……乐山及周边11个滑雪好去处,让你耍个痛快!元旦假期怎么玩?耍雪可以考虑一下啊!去雪地里打滚,一跃而下,快乐又刺激!今天给大家汇总了全川11个滑雪场,地址、门票、车程、周边景点都给梳理好了,看看有你中意的没滑……解码中国式现代化丨这是物质文明和精神文明相协调的现代化视频加载中。。。习近平总书记在党的二十大报告中强调,以中国式现代化全面推进中华民族伟大复兴。中国式现代化,是中国共产党领导的社会主义现代化,既有各国现代化的共同特征,更有……彭老总受批判后,开国少将李钟奇因为什么原因,对老首长动了粗?上世纪五十年代的抗美援朝战争,众所周知我军司令员为彭总,但其实彭总并未一直在朝鲜前线指挥作战,1952年便回到北京主持军委工作,朝鲜战事后来主要是邓华将军实际负责,并在1953……挑战单卡单日训练BERT,ViT作者推荐Pine发自凹非寺量子位公众号QbitAI单个GPU,只花一天时间,能把BERT训练成什么样?现在,终于有研究人员做这件事了,在有限的计算条件之下看看语言模型……
甘比当了阔太后真时髦,大胆挑战凉鞋配袜子,全靠阔太气场在撑迪丽热巴也太瘦了吧,这一身花衬衫穿得有点hold不住53岁周慧敏晒近照,皮肤紧致白皙,穿衣像农家妇女,网友有颜任教你实用的一衣多搭权志龙xNike新联名曝光,全新鞋型或将年末发售?姚晨晒齐刘海素颜造型,妆前妆后差距大,皮肤泛黄无气场向华强的侄女虽然脸蛋很温柔,但却带着高级气质,感觉并不简单刘敏涛是70后女人当中,好身材又会穿的代表,高级气质让人羡慕买物教室丨衣服的最佳配饰居然是耳机?!服装材料的地位和作用袁泉带火了一种穿法,叫衬衣阔腿裤,很适合四五十岁的女人小个子这么穿秒变时尚小达人如何选择吉祥的车牌号码数字你的产品和店铺人群匹配吗盘点世界十大冲锋枪排名开局吃鸡近战神器刺激战场游戏中出现了M416皮肤和101服装,怎么获得?苹果原装充电器最佳平替,努比亚氘锋65W四口氮化镓GaN3P童年趣事如何利用在图片上加文字迈向专业化运营作为运营,你在工作时注重运营节奏了吗?如何正确地认识和处理“亲子中断创伤”带来的基础性伤害中考满分作文深秋思夏销售励志文章摘抄大全盐城今日金项链多少钱一克圆珠

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利