星空(中国)体育·官方网站
在2000年出版的《剑桥世界食物史》(The Cambridge World History of Food)中,记载了一则轶事:1728年,意大利学者雅可布·贝卡利(Jacopo Beccari)宣布,发现白面粉中存在具有“动物物质”全部特性的东西。他的处理方式,是将和好的生面团在水中揉搓清洗,除去细小的白色淀粉颗粒,剩下的就是粘性的面筋团,因为不知道它是从哪儿来的,人们就以为它来自动物。贝卡利认为,这些“动物物质”成分使得小麦特别有营养。作为一个整体,面粉并没有表现出动物物质特性,这是因为大量淀粉的存在掩盖了面筋的性质。
贝卡利的这一在现代人看起来无比粗糙的研究,却在无意中为后代人开启了一扇通往微观生命世界的大门。在一个世纪后的1838年,荷兰医生盖里特·穆尔德(Gerritt Mulder)发表文章称,他分析过的所有重要的“动物物质”都具有相同的基本组成:40个碳原子,62个氢原子,10个氮原子和12个氧原子,可以简单地表示为C40H62N10O12。这些“动物物质”表现出不同的性质,仅仅是因为依附于它们的硫或磷原子的个数。他以希腊海神普罗透斯(Proteus,具有预言能力,但会变换成各种形状以逃避回答问题)为名,将其正式命名为“蛋白质(protein)”。而经过他的研究,初步认定了蛋白质是构成动物和植物的基本物质之一。
再往后的故事,如大家所知,20世纪人类开始从分子层面认识和研究生命,除了DNA的秘密被揭晓,推动了生命科学领域的一次重大飞跃外,蛋白质作为生命的物质基础、生命活动的主要承担者的重要性也逐渐为科学家所发掘。而有关蛋白质的研究,特别是关于其三维构型的研究,在经历了很长一段时间缓慢的推进之后,终于在21世纪的前二十年里,被AI一举攻破,“AI蛋白质折叠”成为生命科学领域乃至整个科学研究领域最重要的研究成果。
答案在于,蛋白质拥有丰富而复杂的空间结构,这些结构决定了蛋白质的功能。蛋白质以氨基酸为基本组成单位,氨基酸的不同排列(即序列)以及在此基础上的卷曲折叠,形成了特定的三维立体结构,进而执行不同的功能。人类现在已知组成蛋白质的氨基酸有20余种,如果它们可以以任意顺序和长度链接、并折叠形成不同的蛋白质,那么理论上可能存在的蛋白质数量会达到约101300,比整个宇宙中的原子数量还要多很多倍,功能更是因此丰富而复杂。
换言之,理想的情况下,如果我们可以测清氨基酸在组成蛋白质时折叠构成的三维结构,就可以了解清楚蛋白质发挥什么作用和如何发挥作用,那将对人们理解生命运行、探索生命奥秘发挥巨大的助益作用。更进一步,如果人类可以在此基础上对蛋白质进行设计、改造乃至创造自然界中尚不存在的蛋白质,引导它发挥特定的功能,那更将会产生难以估量的价值。例如,在药物研发领域,靶点、抗体药、多肽类药物、蛋白疫苗、融合蛋白药物等都是蛋白质,如果能够设计出新颖的蛋白药物,将会有更大的概率解决当前人类遇见的许多疑难杂症;在食品领域,开发优质、安全、价格低廉的替代蛋白食品,丰富人类营养来源、解决食品短缺问题;材料领域,通过优化蛋白质,开发易降解且能循环使用的环保生物材料,促进社会可持续发展等。
然而,理想很美好,现实却很曲折。仅仅为了弄清楚蛋白质的组成和结构,科学界就已经花费了近一个世纪。1902年诺贝尔化学奖获奖者、德国化学家费舍尔(Hermann Emil Fischer)在20世纪的第一个十年中,率先提出氨基酸之间的肽键相连接形成蛋白质的论点,为蛋白质结构研究开启先河。然而直到半个世纪后的1959年,英国生物学家马克斯·佩鲁茨(Max Perutz)和约翰·肯德鲁(John C. Kendrew)使用当时新兴的X射线晶体衍射技术,分别对血红蛋白和肌血蛋白进行了结构探究,人类才第一次“看清”蛋白质分子的细节,二人也因此获得了1962年诺贝尔化学奖。在同一时期,美国生物化学家克里斯蒂安·安芬森(Christian Boehmer Anfinsen)于1961年发表论文,认为蛋白质所有造成最终构象所需的信息,都被编码于其氨基酸序列上,即蛋白质一级排序决定三维结构。他的这一猜想被称为“安芬森法则”,为后来的蛋白质结构预测奠定了基石。1972年,安芬森也凭借着这一法则斩获了诺贝尔化学奖。
一件在AI领域众所周知的里程碑事件,是深度学习的崭露头角。2012年9月,Geoffrey Hinton等人发表了题为“用深度卷积神经网络进行ImageNet图像分类”的论文。文中提出的AlexNet深度卷积神经网络,在当年的ImageNet分类任务比赛ILSVRC-2012上以巨大的领先优势获得冠军,全面刷新了此前纪录。就此,深度学习技术异军突起,进而带动沉寂多年AI技术进入了新的高潮期,业界迎来了寒冬之后的第三次AI崛起。
2016年夏天,许锦波教授开发出的算法RaptorX-Contact,证明了深度残差卷积神经网络可以大幅度提高蛋白质结构预测的性能,并在当年的全球蛋白质结构预测比赛(CASP12)中,在蛋白质接触矩阵的预测上得分居首位,引发学界关注。在此之前,CASP的平均得分一直在30分左右徘徊,而许锦波教授的算法一举将纪录提升到了60分,实现了真正的颠覆性突破。相关成果于2017年发表于国际计算生物学会官方期刊PLoS Computational Biology,后来获得PLoS Computational Biology创新突破奖。
此后,许锦波教授继续优化和推广这一算法,他的核心思想也快速被业界其他研究者采纳,并相继用于各种AI蛋白质折叠算法的开发。一时间,用深度学习方法研究蛋白质结构的成果出现了井喷。仅许锦波教授自己,就很快在随后的研究中进一步认识到,氨基酸之间的距离预测,不能一对一对预测,要所有对一起预测,并又一次率先开发出端到端模型。相关成果于2019年8月在美国国家科学院院刊(PNAS)发表,全球范围内首次将AI应用至蛋白质氨基酸(原子)之间的距离预测,进一步提升了蛋白质三维结构预测的精度,且让科学家仅需使用笔记本电脑就能完成这项工作,将AI蛋白质结构预测又推向了一个新的高度。
再往后的故事,大家都知道了。DeepMind推出的AlphaFold 2在2020年的CASP 14中,实现了对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电镜等复杂仪器观察预测的水平,引发了全球科学界海啸般的轰动。当年,AI预测蛋白质结构就被《科学》杂志评为“十大科学突破之一”,2021年又被评为“十大科学突破”之首,2022年又入选了《麻省理工科技评论(MIT TR)》十大突破性技术。
后来,业界普遍认为,AlphaFold的早期版本,其实现方式并没有太多创新,而是基于RaptorX-Contact的算法思想。而AlphaFold 2中的关键思想,即端到端模型,根据序列的特征直接输出三维结构,同样与前述许锦波教授于2019年发布的研究成果异曲同工。也正因为如此,AlphaFold取得的成果,还曾在业内引起过一段争议:相比较大学校园中的科研活动,大企业支持的商业实验室,其成果是否更多是精湛的工程技术,而非创新的科学见解?
正如本文第一部分所说,测清蛋白质的三维结构,将对人们理解生命运行、探索生命奥秘发挥巨大的助益作用。在此基础上,如果我们可以对蛋白质进行重新设计、引导它发挥特定的作用,乃至生成全新的蛋白质,那更将会产生难以估量的价值。就此而言,许锦波教授和他的RaptorX-Contact开了一个头,但这只是一个开始。毕竟在深邃的生命宇宙中,还有更多的未知等待着人们去发现。比如,对AI蛋白质结构预测的手段进行优化,进而探明更多蛋白质的结构、更深入地理解生命运行的机制;再比如,更具有应用想象力的AI蛋白质优化与设计。
由于AlphaFold 2擅长的是预测和计算单个蛋白质的结构,仅能够做预测且高度依赖MSA(来自同源蛋白质的多序列比对)及其衍生的共进化信息和序列谱,而蛋白质世界具有的巨大复杂性,意味着蛋白质结构预测还有很大的探索空间,例如蛋白质与其他分子的相互作用、单点突变对蛋白质结构和功能的影响、孤儿蛋白质结构预测、蛋白质侧链预测等。因此,仅AI蛋白质结构预测领域,在AlphaFold 2出现后就仍然不断有前沿成果涌现。
例如,2021年,“科学突破奖”获得者,被称作“上帝之手”的华盛顿大学教授David Baker领导来自华盛顿大学、哈佛大学、德克萨斯大学西南医学中心等团队发布的AI工具RoseTTAFold,拥有媲美AlphaFold 2蛋白质结构预测的超高准确度,而且更快、所需计算机处理能力更低,不仅可以预测单个蛋白质结构,还能预测蛋白复合物结构,但和AlphaFold 2类似,依赖于使用MSA和相似蛋白质结构的模板来实现最优表现。2022年,META也曾推出ESMFold,其在预测蛋白质的三维结构方面与AlphaFold 2能力相当,且能预测孤儿蛋白的结构,计算速度比AlphaFold 2快了一个数量级,单序列输入时精度也明显好于AlphaFold 2。不过后来META解散了该团队,停止在这一领域继续大规模投入。除了这两个在业内大名鼎鼎的团队之外,在其他一些AlphaFold 2没有很好解决的问题方面,仍有研发团队不断取得超过前人的成果。
这里还有一个小插曲。2024年5月8日,谷歌旗下公司DeepMind和Isomorphic Labs合作,正式发布了蛋白质结构预测领域的最新AI模型AlphaFold 3。DeepMind宣称,AlphaFold 3能预测含有蛋白质数据库(Protein Data Bank)内几乎所有分子类型的复合物的结构,包括配体(小分子)、蛋白质、核酸(DNA和RNA)如何聚集在一起并相互作用,以及预测翻译后修饰和离子对这些分子系统的结构影响,从而帮助我们在原子水平上精确地观察生物分子系统的结构。不过,这一全新版本暂时不开源代码,需要等到六个月以后,才能将代码和模型权重提供给学术界使用。因此,新版本能在多大程度上超越前作,谜底还有待进一步揭开。
同理,在其他诸如合成生物、农业、食品、新材料等更广泛的领域,AI蛋白质优化与设计技术还有更多、更丰富的想象力。例如,在当下发展势头迅猛的合成生物领域中,酶(也是一类蛋白质)被广泛使用用于生物催化,如果可以设计和改造酶的结构和功能,提高催化效率、稳定性和选择性,将极大提升生物合成、催化与转化的效率。或者,直接设计具有特定功能的蛋白质制品,比如,开发更易于人体吸收、更富营养的替代蛋白食品;研发对人类安全无害、对环境友好的绿色生物农药;开发强有力的塑料降解催化剂帮助消除污染;创造更有延展性和韧性的纤维材料从而提升航空工业水平;提升农作物的产量、品质,培育更多绿色高产的农作物产品……如此多的应用方向,还有待人们开发强有力的蛋白质优化与设计工具逐一去探索解决。
以有“万能生物催化剂”之称的P450酶(CYP)为例。作为一个在生物体内广泛分布的庞大酶家族(包含多个家族、亚家族和酶个体,具有高度的多样性和复杂性),它能够催化多种反应类型,且可识别的底物(即可与其发生生化反应的物质)范围极广,因而在药物合成,以及合成生物领域的应用中具有极大的潜力。由于天然存在的P450酶无法完美契合工业需求,因此改造现有或设计具备新功能的P450酶,从而拓宽其应用范围的需求就应运而生。然而,大多数P450蛋白的长度约为4—500个氨基酸,这就意味着,设计出新P450的可能性就达到了20400-20500,比宇宙中所有原子的数量(有预计可达到1078x1082)还要多得多,想找到合适的那一种无异于在大海中捞针。不止如此,由于P450酶的催化反应需要适配的辅酶,这就意味着设计具备新功能的P450酶,还需要同时考虑其他蛋白质与其相互作用的情况,这让设计新酶的复杂度呈指数型上升。
在没有AI技术以前,科学界也在运用一些方法,试图在浩如烟海的蛋白质宇宙中,寻找可能对人类有价值的蛋白质分子,并有目的地对蛋白质分子进行优化设计,使其更好地为人类所用。例如,定向进化和理性设计。前者主要是模拟自然选择的过程,对目标基因进行多轮突变和筛选实验,直至获得所需的优良变体;后者则是依据序列和结构信息,选择较少的关键位点进行精准改造。但两者都具有很明显的缺陷。前者通过模拟自然选择过程,对目标基因进行多轮突变和筛选实验,直至获得所需水平的优良变体,但是该技术受限制于较低的筛选速率和序列空间中庞大的变体数量。后者依据序列和结构信息,选择较少的关键位点进行精准改造,从而构建较小的突变文库,但是需要对结构功能信息有深入了解,并且当实验结果不符合预测时无法调整。像前述的P450酶,想要找到理想的新分子,研究者们可能花费毕生的精力,也未必能得到想要的成果——从20世纪50年代P450酶被首次发现以来,研究界还从未能够通过人工设计的方式得到新的分子,仅仅是对某些已存在的分子进行了部分改造优化。研究界需要更有力的工具方法,更快、更精准地设计符合需求的蛋白质。
2018年以后,许锦波教授率先将研究范围扩展至AI蛋白质优化与从头设计,并将预训练机制引入其中,进一步探索AI蛋白质技术的产业应用路径。他先后推出了十余项技术,比如,可同时用于蛋白质侧链预测与序列设计的算法,性能媲美ESMfold的单序列结构预测算法,精度超越AlphaFold 3的复合物预测算法等,并创新性地融合AI与分子动力学、量子化学等技术,解决科学与产业问题。这些技术不仅在测试中表现出了世界领先的性能,也在湿实验中得到验证,迅速被一些跨国药企、生物科技公司所采用。2021年底,他回国创建了名为“分子之心”的AI蛋白质优化与设计平台公司,并快速推出了业内首个功能完整的AI蛋白质优化与设计平台MoleculeOS,推动相关研究成果尽快实现更大的应用价值与社会价值。
除了许锦波教授以外,其他团队也在陆续发表AI蛋白质设计算法,探索各种功能性蛋白质生成,只是成果仅限于计算层面,未有公布产业应用结果。2022年9月,David Baker团队又开发出一种名为ProteinMPNN的从头设计蛋白质的深度学习工具,确定与给定蛋白质结构相对应的氨基酸序列,短短几秒钟之内就能够根据自主意愿快速生成全新蛋白质,不过无法要求蛋白具备某种性质;2023年7月,该团队又发布了一种能从头设计全新蛋白质的深度学习方法RoseTTAFold Diffusion,其基于扩散模型(diffusion model),能生成各种功能性蛋白质,包括在天然蛋白质中从未见过的拓扑结构,但与ProteinMPNN类似,无法进行精确的条件式生成,让蛋白具有某种特定的性质。2022年12月,Generate Biomedicines也公布了一个名为Chroma的项目,同样借助扩散模型(diffusion model),生成自然界中没有的全新蛋白结构,并生成了模拟26个英文字母和10个阿拉伯数字形态的全新蛋白结构。然而,Chrome无法基于功能需求产生蛋白,也不能指导如何评估生成的蛋白的功能性,因此更类似于科研工作,对产业应用有多少价值还有待进一步挖掘。
不过,诸如ChatGPT之类的AI大模型,侧重于通用领域的文本、图片、视频等内容生成,无法满足诸如蛋白质生成之类的产业深度需求。原因在于,蛋白质序列形成的结构比自然语言的结构复杂得多,数据也比自然语言复杂得多,涉及高度专业、多样的蛋白质大数据。现代的通用大模型底层架构无法精准地对这些蛋白质多模态数据精准建模,要做好蛋白质生成,必须从底层建立更新、更强大的AI建模技术。因此构建AI蛋白质生成大模型、提升蛋白质设计的效率和成功率,也成为业内关注的新方向。
研究界在近几年陆续产生一些成果。例如,2020年,AI研究机构Salesforce Research、合成生物学公司Tierra Biosciences和加州大学旧金山分校的一组研究人员联合构建的ProGen,能够以类似“遣词造句”的方式生成跨多个蛋白质家族且功能可预测的蛋白质序列。但其只能接受序列信号、无法接受结构信号,不能够同时考虑结构、功能、相互作用、进化等信息,成功率较低,也无法精准地实现产业应用中所需要的功能。而在国内,2023年,百图生科与清华大学联合提出了千亿参数的蛋白质语言模型xTrimoPGLM,探索了蛋白质理解和生成这两种类型目标之间的兼容性以及共同优化的可能性,能够对单个蛋白质、细胞中蛋白质相互作用、细胞本身,以及细胞系统建模。2024年6月,由前Meta AI研究人员创立的Evolutionary Scale AI发布了蛋白质语言模型ESM3,能力超越了前述两种,支持序列、结构、功能的同时推理,但目前仍存在生成精度不足、使用特别复杂、无法微调等问题。
此后,团队积极地将其投入应用于产业项目,在产业实践中一边获得反馈、一边进行优化。不到一年的时间里,就取得了多个产业应用成果。例如,在生物材料领域,运用NewOrigin帮助合作伙伴优化一种涉及行业瓶颈,但极具商业价值的关键蛋白质,在未使用产业场景数据的情况下,相对于野生菌,AI设计的一个重要酶蛋白结构使菌种产率提高了5倍,有望让这一被持续改造了数十年的蛋白质实现性能飞跃,从而带动产率大幅提升、成本大幅降低;在创新药研发领域,针对某蛋白疫苗的稳定性、表达量等进行多目标优化,AI优化后的疫苗,经过动物实验表明,产生中和抗体滴度达到已公开专利和相关大型药企同类疫苗的数倍,并突破相关疫苗稳定性专利。而AI设计的一条细胞因子管线,在保持抑制肿瘤活性的同时,减毒(减少外周活性)数百倍,猴子耐受剂量达到同类管线的数十倍……成功的产业应用成果,证实了AI蛋白质大模型的强有力能力。
大模型的表现初露锋芒,让人信心倍增。在大模型的加持下,过往蛋白质研究的“挖矿寻宝”碰壁试错的模式,将变成“按图索骥”的新方式,甚至有可能从头“发明”具备特定功能的全新蛋白质。而通过可编程的蛋白质设计技术,将解决传统方法无法满足的需求,极大地提升药物研发、合成生物、新材料、食品、农业、环保等领域的研发效率,并降低成本。一个由AI蛋白质大模型作为底层技术支撑、从而推动生物制造产业更加欣欣向荣的场景,已然跃入眼前。
其中,在2022年美国白宫启动了《国家生物技术和生物制造计划》,并于2023年发布“生物技术和制造目标”时间表,成立国家生物经济委员会,明确要大幅度提升生物制造的速度、成功率和创新效率,解决生物实验法无法解决的问题;2024年3月,欧盟委员会发布题为“与自然共建未来:推动生物技术和生物制造”的政策文件,提出采取有效利用研究成果并促进创新、刺激市场需求、简化监管途径、鼓励公共和私人投资、制定并更新标准、开展国际合作等一系列针对性措施,促进欧盟生物技术和生物制造发展;2024年5月,日本政府提出,2030年实现100万亿日元市场规模的生物经济。在生物制造方面,将推动建立生物技术和AI等数字技术融合的微生物和细胞设计平台,并完善生物工厂等基础设施。在中国,2022年《“十四五”生物经济发展规划》首次专门针对生物经济进行规划,明确将生物制造作为生物经济战略性新兴产业发展方向;2024年“生物制造”作为新增长引擎首次被写入两会政府工作报告。
在AI蛋白质相关领域,承接DeepMind创新研究成果的Isomorphic Labs正在与诺华、礼来的AI药物开展战略合作;AI驱动的蛋白质设计公司Generate Biomedicines接受了生物科技巨头安进(Amgen)的19亿美元投资,用于开发蛋白质疗法;合成生物领域的代表企业Ginkgo Bioworks正在与Google Clouds合作,开发新的大语言模型应用于药物发现、生物安全等领域,并与美国国防部高级研究计划局(DARPA),围绕如何利用无细胞蛋白质合成(CFPS)技术、按需制造蛋白质展开合作;英伟达在2023年连续投资九家应用生成式AI进行药物研发的初创企业……资本、技术、应用等众多力量的加入,将会加速AI蛋白质技术的进一步开发,带来更快、更大规模的应用落地。