斯坦福博士提出超快省显存Attention，GPT2训练速度

江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

斯坦福博士提出超快省显存Attention，GPT2训练速度

3月3日不星湖投稿

　　白交发自凹非寺
　　量子位公众号QbitAI
　　Flashisallyouneed！
　　最近，一个超快且省内存的注意力算法FlashAttention火了。
　　通过感知显存读取写入，FlashAttention的运行速度比PyTorch标准Attention快了24倍，所需内存也仅是其520。
　　而它的表现还不止于此。训练BERT速度相较于MLPerf训练记录提升15；训练GPT2的速度提高3。5倍；训练Transformer的速度比现有基线快。
　　网友们纷纷表示惊叹：GreatJob！这项工作对我来说很有用。
　　来看看这是一项什么样的研究FlashAttention
　　本文提出了一种IO感知精确注意力算法。
　　随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方）
　　现有近似注意力方法，在试图通过去牺牲模型质量，以降低计算复杂度来解决该问题。
　　但存在一定的局限性，即不能提升运行时的训练速度。
　　研究者认为，应该让注意力算法具有IO感知，即考虑显存级间的读写，比如大但慢的HBM（HighBandwidthMemory）技术与小但快的SRAM。
　　基于这样的背景，研究人员提出了FlashAttention，具体有两种加速技术：按块递增计算即平铺、并在后向传递中重新计算注意力，将所有注意力操作融合到CUDA内核中。
　　FlashAttention使用平铺来防止大的注意力矩阵（虚线框）在GPUHBM上物化（materialization）。在外部循环中（红色箭头），FlashAttention循环通过K和V矩阵的块，并将其加载到SRAM。
　　在每个区块中，FlashAttention循环Q矩阵的区块（蓝色箭头）将其加载到SRAM，并将注意力计算的输出写回HBM。
　　这样就产生了一种注意力算法，在实际耗时（wallclocktime）内，其内存效率和速度都很高，相比于标准的注意力算法可以更少地访问HBM。
　　结果比现有注意力算法都快
　　研究人员评估了FlashAttention来训练Transformer的影响，包括训练时间、模型准确性，以及注意力运行时间和内存效率。
　　首先在训练速度上。FlashAttention比MLPerf1。1的BERT速度记录高出15。
　　在实现GPT2上，比HuggingFace速度高出3倍，比Megatron的标准Transformer速度高出1。8倍，FlashAttention将LRA（longrangearena）的基准速度提高了2。4倍。
　　在模型质量，FlashAttention将Transformer扩展到更长的序列，并且质量更好。
　　长上下文的语言建模。
　　如图所示，使用FlashAttention可以让GPT2上下文长度增加4倍的情况下，训练时间还比MegatronLM优化实现快30，同时也获得了0。7的困惑度（困惑度越低，说明语言模型越好）。
　　长文档分类
　　对较长序列的Transformer训练可以提高MIMICIII和ECtHR数据集的性能，比如序列长度为16K在MIMIC上比长度512多出4。3分。
　　MIMICIII：包含重症监护室病人的出院总结，每个都有多个标签注释；ECtHR：包含欧洲人权法案的法律案件；两个数据集都包含很长的文本文件。
　　此外，还完成了第一个能在PathX和Path256任务中实现非随机性能的Transformer模型。
　　之后，研究人员还完成了基准测试，测量FlashAttention和块状稀疏（BlockSparse）FlashAttention的运行时间和内存性能，并与带有40GBHBM的A100GPU上的各种注意力基线进行了比较。
　　结果显示，FlashAttention的运行时间，比PyTorch注意力实现快3倍；在短序列情况下，FlashAttention在短序列中仍比近似和稀疏注意力运行得快；至于块状稀疏的FlashAttention，在所有的序列长度上都比现有注意力实现都快。
　　至于在显存效率方面，FlashAttention比PyTorch注意力基线高20倍。
　　在64k序列长度、其他所有算法都已经耗尽显存的情况下，FlashAttention的效率仍比Linformer高2倍。斯坦福博士一作
　　这篇研究来自斯坦福大学计算机系以及纽约州立大学布法罗分校。共同一作是两位斯坦福计算机博士生TriDao和DanFu。
　　感兴趣的朋友，可戳下方论文链接了解更多
　　论文链接：
　　https：arxiv。orgabs2205。14135
　　GitHub链接：
　　https：github。comHazyResearchflashattention
　　参考链接：
　　https：twitter。comtridaostatus1531437619791290369
　　完
　　量子位QbitAI头条号签约
　　关注我们，第一时间获知前沿科技动态

投诉评论转载

赵本山徒弟必须有房有车郭德纲要尊师重道格局高下立判赵本山是二人转、小品演员，郭德纲相声演员，赵本山创立本山传媒，郭德纲建立德云社，两人都有上百位弟子，诸多的共同点，所以两人经常被拿来作比较。跟着赵本山，有吃又有喝。……九分裤衬衣小个子这样穿，既显高又气质，气质很加分初秋的季节个子娇小的姐妹们一定要把九分裤穿起来！九分长度的裤管要比常规的款式看起来更加干练大气，而且还可以在视觉上更好的延伸身材线条，轻松达到显瘦显高的效果。九分裤衬衣是……40岁伊布时隔11年再度助米兰拿下意甲，收获职业生涯第33冠直播吧5月23日讯意甲收官，AC米兰夺得2122赛季意甲冠军！40岁的伊布收获了他职业生涯的第33座冠军奖杯，这也是他代表AC米兰获得的第三座冠军。伊布生涯冠军如下，按球……美籍华裔喊话奥委会把金牌还给我们美国，当事人回应问心无愧近日有不少粉丝关注到了周知方的动态，这是一位非常出色的花样滑冰运动员，在美国队效力期间取得了不错的成绩，不过他的实力明显不如陈巍，因此没有在奥运会的舞台上获得金牌，周知方从很小……詹姆斯每天凌晨五点开始训练，也许这就是他一直能保持巅峰的原因在本赛季没能进入季后赛的詹姆斯早早就开启了自己的假日模式，詹姆斯带着家人一起前往了迪拜旅游。随后詹姆斯便回到了洛杉矶正式开启了自己的训练模式，他在每天凌晨五点的时候就要起……青春风暴来袭！vivoS15系列将携多款新品正式亮相vivo在近年来深耕手机产业，推出了许多实力派产品。近日，vivo官方发布了包含vivoS15系列在内的众多新品海报，海报内新款耳机、平板设备的外观设计都充满青春气息，与如今的……兰代尔致谢马刺永远感激给我提供了征战NBA的首个机会直播吧7月1日讯老鹰官方今天宣布，球队送出加里纳利、2023年首轮（来自黄蜂）、20252027首轮（本队，无保护）和一个2026年的首轮互换权，从马刺得到德章泰穆雷和兰代尔。……新疆自驾游路线推荐，为啥说新疆自驾游需要托运汽车？新疆是中国面积最大的省份，占我国总面积的16，每年的510月都有很多自驾游爱好者去新疆驾车旅游，每年的79月是自驾游去新疆的旺季，美丽的新疆迎来送往着数十万来自全国各地的自驾游……世联赛前8浮出水面！中国女排30加拿大，蔡斌尴尬，郎平眼光够万众瞩目的女排世界联赛正在如火如荼地进行，中国女排已经打了5场比赛，如今拿到4胜1负的成绩，现居积分榜第二名。如今经过6轮的比赛，可以说世联赛前8名的球员逐渐明朗，日本女排豪取……冬奥闭幕式好热闹！苏翊鸣谷爱凌惊喜同框，高亭宇扛着徐梦桃进场从2月4日到2月20日，持续超过半个月的2022年北京冬奥会在全世界的瞩目下顺利结束了。奥委会主席巴赫对这届冬奥会给予了最高评价，4次用中文对中国各方面的主持表示感谢，称赞这是……斯坦福博士提出超快省显存Attention，GPT2训练速度白交发自凹非寺量子位公众号QbitAIFlashisallyouneed！最近，一个超快且省内存的注意力算法FlashAttention火了。通过感知显……适情雅趣阻住行程局，下二线炮另侧车夹击双杀，象棋残局学习2022。05。08，星期日，天气阴。今天学习《适情雅趣》阻住行程局。58如图58所示，红先：1。马六进七车8平32。车八平五士6进53。炮……

<<<<<<－>>>>>>

一人撑起整部戏，这6部电影真是太绝了我国电商比实体厉害，日本实体比电商厉害，为啥有这样的区别呢？网传王一博又一新作即将开机，或将搭档影帝！网友直呼期待 CTC技术加持零跑C01续航轻松干到717km 同父不同命！李连杰对前妻女儿不闻不问，却将小女儿宠成宝午睡和不午睡的孩子有何区别？关于孩子午睡的科学知识爸妈别不懂糕妈10节包会的游泳课别轻信，这些坑，希望你不花钱就知道造！又有新的生产力语言了GitHub热点速览v。22。30 疯了疯了！1笔交易10个首轮！真不愧是你啊可以养老的版本？苹果正式发布iOS15。6，建议iPhone 创造历史，季后赛单节10分，杜锋发狂，杨鸣笑 18种常见梭织面料

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利