安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

腾讯刘伟AI药物发现存在一个核心问题,即模型是否具备泛化能力

8月24日 风雨峰投稿
  萧箫整理自MEET
  2023量子位公众号QbitAI
  AI制药,一个被称作明星赛道的行业。
  不仅融资消息隔三差五传出,更被认为是计算生物最有希望落地的领域。
  据量子位智库预测,AI制药行业国内市场保守估计将达到2040亿元规模。
  在这样的前景下,不仅国内外高校博士生和教授纷纷投身创业,就连互联网大厂们也争相入资角逐。
  如今AI制药步入热度高峰后的瓶颈突破期,各玩家的差异性也逐步显现。
  作为国内互联网巨头的腾讯,相比间接投资,三年前选择直接成立AI制药平台,成为赛道上角逐玩家之一。
  现在,腾讯AI制药平台成果进展如何?相比同赛道玩家,其竞争优势是否得以体现?
  在MEET2023大会上,腾讯医疗健康AIDD技术负责人刘伟,从腾讯制药AI算法实践的角度探讨了这一行业当前的现状。
  为了完整体现刘伟的分享及思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。
  关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2023大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。演讲要点在AlphaFold和AlphaFold2驱动下,AI药物行业发展速度非常快,而腾讯在蛋白质结构预测上的工作从2019年初就开始了。骨架跃迁分子生成算法能在保证原有化合物活性的基础上,突破原有分子专利的保护,或者优化分子的ADMET性质。只靠数据驱动的AI缺乏可解释性,要与领域知识相结合;药物AI是AI算法和领域知识相互发现,相互提升的过程。AI辅助药物发现存在一个难题就是泛化性,即在A靶点中训练的AI模型,通常难以应用到B靶点上做预测。这个问题的解决对技术的突破至关重要。
  (以下为刘伟演讲分享全文)腾讯云深智药是一个怎样的平台?
  我分享的题目为腾讯制药AI算法实践,会对腾讯过去3年积累的AI制药技术进行一个展示。
  我叫刘伟,是腾讯AI药物发现这一块的技术负责人。今天我要讲的内容,主要包括三个部分:
  第一部分是腾讯云深平台介绍,它实际上是沉淀了腾讯AI制药技术的一个平台;第二部分是平台的案例分享;第三部分总结平台的技术优势。
  我们先介绍一下腾讯云深平台的两大功能模块,一个是小分子药物发现,另一个是大分子药物发现,这里主要指抗体药物发现。
  其中,小分子模块包括蛋白质结构预测、分子生成等6个模块,大分子模块则由抗体结构预测、抗体亲和力、以及抗体人源化改造等几大模块组成。
  时间有限,我们不会详细介绍每一个模块,主要会讲案例以及部分底层技术的实现。腾讯云深平台四大案例分享
  第一个案例是蛋白质结构预测,这块腾讯在国内可能是做得最早的。
  最近在AlphaFold和AlphaFold2的驱动下,行业发展速度非常快,而腾讯从2019年初就开始做相关技术工作。
  大家应该比较清楚,蛋白质是生命及其活动中非常重要的组成部分,蛋白质结构预测则是指给定一个氨基酸序列,来预测蛋白质的三维结构。
  我们在2019年打造的一个预测pipeline,当时是基于分子动力学模拟和AI预测相结合的方法,构建了一个叫tFold的蛋白质结构预测平台。
  在2020年比赛的时候,这个pipeline连续八周在评测平台排名第一。
  随后我们还参加了CASP竞赛,在国内获得了第一名,颜宁教授在她的论文中还引用了tFold平台,这是对我们在蛋白质结构预测上的成果的重要肯定。
  第二个案例是结合物理学特征和本地数据训练,我们做了ADMET性质预测系列模型。
  也是从2019年开始的工作,想跟大家分享两点:第一点是效果提升,以水溶性模块为例,我们做的ADMET相比头部商业软件效果平均会有20的提升;第二点是ADMET预测成熟度,在与某药企合作上,我们会提供一个可以说是非常基础的模型,在药企拿到这样的模型之后,会基于具体项目的管线生成的很多内部数据,即项目和靶点相关的特定数据。
  用这些数据对基础模型进行重新训练(retrain)、或者说做微调(finetune)后,它会有一个更好的提升。
  比如我们与某个药企合作分析某系列化合物的心脏毒性,发现在项目中后期阶段,基本上与实验结果相关性达95以上,后来药企就不太需要去做实验了,而是直接使用模型预测结果去做分析了。
  所以我们在ADMET预测这块已经做到非常成熟,目前模型包含60多个属性预测模块,在腾讯云深平台上可以直接使用。
  第三个案例是骨架跃迁分子生成算法,这也是针对国内药企或者国内科研机构的一些实际需求打造的,目前同样已经做得比较成熟。
  通过骨架跃迁分子生成算法,就能在保证原有化合物活性的基础上,突破原有分子专利的保护,或者优化分子的ADMET性质。
  我们自研了骨架跃迁算法,与药企做了一些合作,这些合作不仅帮助到药企发现了纳摩尔级别的多个化合物系列,也很好地验证了我们这个流程的健壮性,在不同的靶点、不同的复合物上都实现了比较好的效果,目前部分研究成果已经发表在期刊上。
  第四个案例是将强化学习引入药物小分子的生成。
  在生成分子的时候,我们不仅要考虑分子活性,还要考虑ADMET的属性,所以我们把这些流程做了一个打通,你可以定制这些ADMET属性的要求。
  在生成过程当中,我们用上强化学习,使得生成出来的分子符合定制的属性要求,两个不同的模块能够相互提升和强化,最终建设一个非常完整的pipeline,这可以用在各种分子生成的场景中。
  例如这个例子中,生成有两个要求,包括不能通过血脑屏障、以及logP的属性:
  可以看到,在没有经过强化学习时,它的分布是比较弥散的,生成出来的化合物不太满足实际应用需求。但经过几轮强化迭代后,97的分子都会满足生成的要求。这一平台具备哪些技术优势?
  接下来,我们总结一下腾讯云深经过两三年发展后,积累出的一些技术优势。
  第一块是在AI算法方面。大家知道,在药物研发这一块最主流的技术就是深度图神经网络,腾讯在做药物AI之前,在这方面做了非常长时间的研发,也有非常深厚的技术积累。
  因为腾讯是一个社交网络公司,所以在深度图神经网络方面有深厚的研发积累,包括在一些AI顶会如NeurIPS上面,我们腾讯AILab在上面发表了非常多的论文,包括大规模图随机采样、以及图自监督学习等,其中一些论文的引用量非常高。
  第二块和第三块,就是大算力、大数据方面的能力。
  我们知道化学空间非常大,以10的n次方为计数,在这么大的化学空间中发现药物分子非常不容易。
  通常的做法是借鉴自然语言处理或者图像视觉技术发展而来的大模型预训练,使得模型本身能够理解化学空间的语言,比如像理解SMILES、3D分子结构,甚至是理解蛋白质结构。
  所以这方面会面临针对大模型、大算力的强劲需求,我们在这一块也做了非常多的工作,后面会详细介绍。
  最后一块,我们基于腾讯在算法算力上的能力,将AI与物理、化学做了一个结合,这是团队新生长出来的能力。
  我们认为,AI纯粹只靠数据驱动是不足够的、缺乏可解释性的,做出来模型之后,它有时也会因为数据稀疏、漂移产生一些问题。如果能够结合物理、化学知识进入AI算法模型,就能够非常好地反映在化学、或是底层物理方面的一些特征和规律。这样做出来的AI模型,不仅过拟合风险更低,实际应用中也有非常好的可解释性,这也是我们最近几年重点发展的一个能力。
  我们再展开给大家分享一下这几块内容。
  第一块是AI量子化学方面的算法能力。
  我们开发了一系列用AI方法做量子化学计算的算法。量子化学是一个非常广泛而深刻的技术领域,它从比较低精度的经验性计算到非常高精度的多体计算,都已经开发出了很多方法。
  对于现存最高准确度的,例如全组态量子化学计算,它需要非常大的计算量,这对像药物分子、或者说druglike这样的分子是不太可行的,只能被迫使用比较低精度的方法。
  针对这样的痛点,我们做了一个叫DeepQC的框架,可以在以秒为量级的时间单位下,达到高精度大基组DFT的计算结果。
  我们还把DeepQC用在像晶体、催化体系上,也取得了非常好的效果,特别值得一提的是,在今年的催化剂相关比赛OpenCatalystChallenge2022上我们还拿了冠军。
  这也是基于我们多年以来对AI和量子化学结合的探索基础之上做出的工作。
  这样一套方法,我们原本只是在有机分子上,我们看到将其推广到催化的表面体系,以及晶体的周期体系,它仍然可以非常高精度、非常快速地完成任务,它的速度比用量子化学模拟要快一个数量级。
  第二块是我们在图卷积神经网络方向的技术发展。
  腾讯以前做的很多图卷积神经网络工作在社交网络方面,但我们把它拓展到蛋白质结构上,发现也有非常好的效果。
  实际上不管是蛋白质,还是这些配体和药物体系里面,它其实都有非常好的层次结构,和社交网络非常相似。
  蛋白质通常被分为几层结构。从最底层的原子、甚至电子,再到氨基酸,氨基酸又组成蛋白质多肽链,再到上面三级结构或四级结构,如果在各种不同的层级用不同神经网络建模方法,就可以把它做得更好。
  我们把层次图卷积神经网络用在抗体结构预测上,效果超过了AF2、IgFold等模型的结果,目前相关论文也已经被NeurIPS收录,也已经在arXiv上公开。
  第三块是大分子预训练模型。
  我们刚才提到,药物化学空间非常大,但是具体到某个药物研发项目中时,数据非常少甚至没有,所以你必须解决过拟合的问题。
  我在做某一个项目、某一个靶点的时候,它的数据可能就只有几百甚至几十个,这种情况下如果没有大数据作为基础,是非常容易过拟合的。
  我们在2019年就意识到这样的问题,发表了一个大规模分子预训练模型叫GROVER,现在几乎这个领域的所有工作,都会引用当初我们在GROVER上做的成果。
  我们是国内最早在分子图上做预训练的,而这也是腾讯云深平台非常底层的技术,不管是在分子属性预测、还是蛋白质结构预测、还是抗体药物设计上,它都是非常底层的公共技术模块。
  不管是针对2D还是3D分子,都会基于embedding做特征提取,然后也是预训练微调这样来用,也是行业内的一个范式。
  最后,就是我们今年最新的一个工作。
  我们在做AI辅助药物发现时,发现了这样一个问题,在A靶点(A场景)中训练的AI模型,会非常难以应用到B靶点(B场景)上做预测。
  这个其实就是OOD(outofdistribution)问题。这个是机器学习自身的一个核心问题,现在也没能100完全解决。
  为了验证我们模型的有效性,我们去做了一个名叫DrugOOD的开源框架,现在它也已经贡献给了行业和社区。
  我们会根据不同的domain把它做一个划分,比如按照骨架、实验assay、或者靶点区分,这样训练出来的模型就会非常不一样。
  这个过程中,我们实际上希望模型在不同场景具备一定的迁移能力,不然模型只能适合某一训练数据场景,这其实不是我们所希望的,因为这样的模型适应能力非常弱,没办法应用到新的问题上。
  在DrugOOD中我们会有一个数据Curator的模块,之后我们会做一个分割,这样在训练不同模型时,我们就可以按照不同的标注去自动写一个配置文件,测定我们新训练的模型在不同的蛋白质家族上不同的效果,这样对模型的泛化性就能有一个非常明确的认识。
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态
投诉 评论 转载

神秘民企现身中国银行前十大股东,投资9亿,办公在别墅区撰文周末编辑孙月在国有大型商业银行的前十大股东中,罕见地出现了一家民营企业。这家民企极为低调,在媒体上鲜有露面,但此次投在中国银行股票上的资金高达9亿元。……操纵型父母迹象与影响什么是操纵型父母一个有控制欲的父母试图影响他们孩子的行为,以便他们会做或不做他们原本不会做的事情。在大多数情况下,操纵型父母是指使用隐蔽的心理方法来控制孩子的活动和……在两地都交了社保,如何选择退休地,养老金会更高?经常有参保者由于换工作或其它原因,导致在两个城市或两个省份都缴纳了社保。对于在两个城市或两个省份都缴纳了社保,且两个地方又都符合办理退休条件的参保者来说,如何选择退休地,……腾讯刘伟AI药物发现存在一个核心问题,即模型是否具备泛化能力萧箫整理自MEET2023量子位公众号QbitAIAI制药,一个被称作明星赛道的行业。不仅融资消息隔三差五传出,更被认为是计算生物最有希望落地的领域。据……轻松度假逛彩云去云南东南看这篇就够了彩云之南可是个好地方景好,人热情,气候温和尤其是是云南西南部因为临近边境线,更加迥异于祖国东部的风情更是令人迷恋!今天,咱们就来看看,怎样才能轻松的逛游……每日数码简报2022。10。07星期五农历九月十二20221007历史上的今天【1860年】10月7日英法侵略军火烧圆明园。01hr据台湾地区经济日报报道,瑞银证券发布报告称,预……门票造假,游客怒了著名的秘鲁旅游胜地马丘比丘发生激烈的群体事件受到黑心旅行社诈骗,大量的无辜游客买了假票,被拒之门外。等待入场的数百人受害者,群情激动,要强行破门而入。当地警察……范迪克会尝试任何方式帮助卡瓦略和努涅斯,希望他们不断学习直播吧7月26日讯在接受采访时,范迪克谈到了球队新援法比奥卡瓦略和努涅斯,他表示,会尝试任何方式帮助新援。范迪克说道:你试着做你加入俱乐部时经历过的事情,每个人都对你非常……睡前吃一粒维生素E,坚持一段时间,会收获哪些好处?导语:相信女性朋友对维生素E并不陌生,维生素E是一种美容养颜抗衰老的营养品,虽然维生素是微量元素,但也能为身体补充能量和营养,而且维生素E的获取方式特别简单。水果和蔬菜中……人生什么最重要人生什么最重要,不同的人,不同的阶段,不同的经历,会有不同的答案。有人说,金钱很重要,不可否认,现在这个社会,没有钱基本上是寸步难行。有人说,名利很重要,我需要获得……金爵体育资讯本泽马将获得续约,罗马有意从热刺租借温克斯英超消息随着尤文图斯可能从马赛签下米利克,将与巴萨解约的德佩只能另觅归宿。传闻曼联也对德佩感兴趣,希望签下这位老球员。本来,德佩是尤文的头号引援目标,但在与尤文讨论个人待……三街同开!聊城市民国庆出行又添新去处金秋结硕果,三街齐开放。在国庆节来临之际,9月30日晚,米市街、东关街、铁塔商街三街同开仪式在聊城市城区利民路铁塔商街举行,标志着三条老街区以崭新的姿态正式开街迎客。据介……
数亿资金被清零,他们被全球最大的在线支付平台坑了桑巴军团再次折戟8强赛这次输在哪里乡愁啊,乡愁46岁大哥,为养肾吃半年六味地黄丸,结果怎样?医生说出实话凯尔登8000万续约马刺!艾顿加盟猛龙威少重返奇才的交易建议6万人爆仓!24小时2。12亿美金!比特币以太坊们再遭血洗纯电版低配不到25万,哪吒S比特斯拉Model3好在哪里?儿童电动牙刷靠谱吗?拒绝行业五大智商税坑货!张琳芃送礼徐新染红,布鲁诺头球建功,武汉队10战胜十人海港中国唯一没有平原的省份,悬崖峭壁建房子,是低调的旅游胜地探秘枣庄羊肉汤历史文化与产业支柱创造了鲁南全羊宴耻辱之战!一度领先19分,中国男篮为何遭到韩国逆转?华为移动路由4G路由2Pro上网开黑,双宽叠加Tubro畅爽散步不幸的幸运华为鼎桥?不太行!集合了华为荣耀小米的酷比14听过吗?支付宝的钱要取出来吗?别急先看这篇文章婉儿造句用婉儿造句大全教你如何养殖千叶吊兰债权人扣押债务人财产可以吗?中国特色的体育项目2022年海南空气多项污染物指标达有监测数据以来历史最好水平淘宝运营干货:新品快速冲销量的秘诀!诚信演讲稿

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利