9月3日,在2022世界人工智能大会(WAIC)上,腾讯宣布,与国家天文台共同开启对M31仙女座星系的射电信号处理,这也是天文界对该星系中脉冲星类致密天体的最深度完整探测。 这场AI天文的跨界合作始于2021年。时年7月,马化腾在去年的WAIC上透露,腾讯与国家天文台启动探星计划,用AI云寻找脉冲星,提高探星效率。 双方合作主要包括三个层面:(1)AI辅助脉冲星搜索效率提升;(2)AI辅助快速射电暴搜索;(3)AI辅助近密双星系统中脉冲星搜索。 经过一年多的合作,腾讯首次对外披露了探星计划进展: 腾讯云副总裁、腾讯优图实验室总经理吴运声表示,目前,优图AI天体探索方案已从巡天观测数据中寻找到超过22个脉冲星候选体。其中,包括在天体物理中具有较高观测研究价值的高速自转的毫秒脉冲星7颗,具有间歇辐射现象的年老脉冲星6颗。此外,优图动态谱AI模型还首次探测到了某磁陀星射电脉冲。 AI为中国天眼寻找脉冲星提速 脉冲星,因为周期性的发射电磁波,被称为宇宙中的灯塔、最精确的时钟,是宇宙演化的研究参考。 脉冲星是在坍缩的超新星的残骸中发现的,它们有助于人们了解星体坍缩时到底发生了什么。脉冲星的本质是中子星,其具有在地面实验室无法实现的极端物理性质,是理想的天体物理实验室,对其进行研究,有望得到许多重大物理学问题的答案,例如黑洞问题。 探星计划项目组成员,复旦大学计算机系副教授池明旻介绍,脉冲星会组成一个阵,通过阵可以发现黑洞。所有信号到了黑洞那都回不来,黑洞会导致空间的弯曲,通过脉冲星可以帮助寻找和发现这一现象。在地面导航有GPS,未来在星际导航的时候,我们可能就要靠脉冲星了。 目前世界上最强大的脉冲星搜寻利器之一,便是有着中国天眼之称的FAST,它是世界上灵敏度最高的射电望远镜。 在执行识别任务的过程中,FAST每天产生的数据规模相当庞大。池明旻介绍,FAST每周产生约500多TB的数据量,对这些数据的计算需要大量算力。在天文领域,搜寻脉冲星是对算力要求超高的研究方向之一。 FAST在1周内产生的脉冲星观测数据,大约能得到3000多万张信号图,如果以人工肉眼处理,按照1张秒的速度,在不吃不喝不休息的条件下,需要用一年的时间才能处理完。此外,信号图成像复杂,传统的图像处理和机器学习算法召回率低,加上跨界学习成本高,天文领域专家对AI模型的设计和使用不擅长,面临多种AI模型设计难点。 而云AI可以很好地应对这些问题。 以往需要1年完成的工作量,AI只需要3天时间就可以完成。在算力方面,腾讯云为探星计划提供了约20个GPU的服务器,可每天24小时不间断地做计算。 最新的数据显示,基于腾讯优图实验室的计算机视觉技术、腾讯云的计算及存储能力,用云AI帮助中国天眼FAST处理每天接收到的庞大数据,并通过视觉AI分析找到脉冲星线索,在同等算力下处理效率提高了120倍。脉冲星的搜寻效率得到了显著提升。 多项自研AI技术创新 数据预处理提速 据介绍,AI辅助FAST探索脉冲星遵循如下技术原理: FAST观测到信号经过一系列天文和物理学方法处理得到适合计算机视觉领域处理的图像数据对信号进行判别筛选比对图像数据留下少部分样本人工再次对少部分样本进行比对确认。 天文数据在经过AI处理前,需要进行数预处理。 数据预处理,主要是将FAST观测到的天文信号转化成图像的过程。相比信号,人能够最直观的可视和感知到图像。通过一系列天文领域专门的处理方法,包括快速傅立叶变换、语音信号处理、消色散等,对数据进行预处理,例如,脉冲星有对应的频率、时间、弧度等三维信号,将这些三维信号转变成两维的图像信号,如时间上位、频率上位等二维图,再通过看图来确定到底是不是脉冲星。 预处理环节是天文领域的难点。这一方面是因为,信号从外太空过来,经过了星际的介质及各种噪声干扰,信号过来从低频到高频,低频到达较慢,望远镜接收入时信号有色散延迟,加上 脉冲星有周期性,色散量不定,脉冲周期也不定,这就导致了首次盲搜的范围非常之大。 对预处理环节进行加速,是腾讯优图实验室在探星计划中所承担的核心任务。预处理对计算有着极高的要求,腾讯优图为此提供了强大的算力支持。 汪铖杰团队统计发现,FAST信号收到后转化成图,要搜索3000万张图1亿张图,才能找到1颗脉冲星,如此广泛的搜索范围对数据预处理速度提出了更高的要求。腾讯优图实验室的视觉AI算法帮助了加速了这一过程,通过将原先的预处理算法,进行重复性冗余计算的消除等方式,将预处理过程提速。 池明旻提到了一组对比数据,在2017年时,FAST探索任务的数据预处理过程大约花费15分钟,而现在应用上AI算法提速后,数据预处理只需不到1分钟即可完成。 多模态半监督学习的AI解决方案 人工智能的算法设计也是一大难点。 这是因为,天文信号是多元的,包括时间上位图、频率上位图、色散图等。天文信号具有时间周期性,从频率、色散、向位等角度看,信息并不相同,例如如果从向位的角度看,脉冲星不明显,但从色散度的角度看会相对明显。 此外,作为世界最大单口径的射电望远镜,FAST的工作模式和精度都与其他望远镜不同。FAST有19个波束,信号之间互有联系,在人工智能算法设计时,针对这些信号的处理,需要多元信号融合、多波束信号融合。 针对上述问题,腾讯优图特别设计了一种基于多模态半监督学习的AI解决方案。 多模态是指,基于多信息输入,综合评价天文信号到底是不是脉冲星,多维输入包含了更多的信息和可行性,因此,多模态的解决方案要比基于信号的直接分析效果更佳。 半监督学习背后的设计逻辑在于,AI算法对数据量需求庞大,FAST观测到的天文信号转化成的数千万到数亿张图,如果全依赖天文工作者人工标注,显然不现实。而通过半监督的解决方案,大量未经标注的数据也可以用于模型训练和学习,这样一来,算法学习的样本量将比人工标注时显著增加,深度学习更加充分,可以将模型做得更深,特征提取更充分,识别能力也会得到显著提升。 实践验证,多模态半监督学习的AI解决方案,相比国家天文台原有的AI筛选模型具有更高的召回率,且误报率下降了98。 小样本学习 数据是人工智能算法的燃料。AI发展多年以来,解决很多场景的大部分问题都是基于对大数据的学习。但在天文领域,尽管处理的数据高达百亿规模,但实际上可供学习的有效样本量还很少。在探星计划中,目前可供用于学习的脉冲星的量级大约在100个左右,如何在这个量级下取得好的学习效果,是一个难题。 小样本学习是近年来应对数据受限挑战的一个热门研究范式。 汪铖杰介绍,合成样本有多种方式。例如通过构造一个对的模式去学习,一个脉冲星加上一个位置信号去判断后者是否与脉冲星有关联性。数据扩增也是AI领域一种较常见的方式,例如在常规的脉冲星上做位移偏移或者加上宇宙仿真的噪音的叠加、变化等。另一种逐渐流行起来的方式是GAN技术,即通过对抗式生成的学习方法,学习一些样本后再生成一些样本用于学习,这种方法在数据量较小的情况下比较有效。 入地为上天作支撑,探索AI和Science结合的新范式 汪铖杰表示,对腾讯优图而言,在寻找到22颗脉冲星之外,探星计划的另一个重要的意义在于,探索出了AI和基础学科结合的模式。 在做FAST探星项目前,我们不了解天文相关的知识,也不确定AI怎么能够跟基础科学衔接、配合、协作,现在经过这个项目,我们就有这个底气去做类似的项目,现在也有一些项目开始推进了。在汪铖杰看来,AIforScience就是在探索AI未知能力的边界。 探星计划是腾讯优图实验室总负责人吴运声所提出AI普适化愿景的重要实现环节之一,AI普适化旨在让AI技术能够具备在各行各业里应用和落地的能力,且能够实实在在地为某一个行业带来实质性的变化。 在此次WAIC上,腾讯还对外展示了云AI在工业、金融、传媒、能源、交通等多个场景下的创新实践。以在工业领域为例,吴运声表示,腾讯的工业AI基础技术集中在工业成像、基础算法、高效学习以及仿真生成四个方面,通过这四部分能力已打造超过10个细分领域外观检测的解决方案。结合规模化落地经验,腾讯云推出了工业质检训练平台,其面向工业外观缺陷检测场景,零基础工程师也能轻松使用,拥有算法精准、部署灵活、简单易用、功能完备的特点,降低工业AI质检算法落地的技术门槛。 而正是基于在上述入地的项目中的实践打下的基础,才让AI上天探星具备了更多可能性。 天文和工业,表面上看好像完全没有联系,但实际上在这些场景里,AI底层技术是相通的,汪铖杰表示,FAST探星计划中应用的很多技术,源于腾讯优图在工业AI质检场景的很多算法的研究和积累,如检测任务、分类模型、小样本学习、异常检测等。