新闻与活动 西湖新闻 学术研究

AI助攻!西湖大学破解多肽分子设计密码
学术
刘雨锟 理学院 2025年03月14日
媒体联系 张弛邮箱: media@westlake.edu.cn
电话: +86-(0)571-86886861
公共事务部

一粒细菌侵入了人体。

它在体内开始游荡,试图释放细菌毒素,开启它的致病之旅。此时,身体里的“防御素”被吸引而来,它们在细菌膜表面积累至临界浓度,而后瞬间启动自组装程序——像乐高积木一样自行组装,结成一张纳米纤维网以避免感染,或是直接“拆开”细菌表面。

危机解除,一场潜在的疾病就这样化解于无形。

人体是一个极度复杂的巨大机器,以防御素为代表的的多肽类物质,是其中极为重要的一类“分子零件”。它的本质是蛋白质片段,科学家希望破解多肽的奥秘,借此创造全新的多肽功能分子,为人类所用。

3月14日,未来产业研究中心、西湖大学理学院王怀民实验室,联合未来产业研究中心、西湖大学生命科学学院黄晶团队,在《自然·材料》上发表最新一项科研成果——他们开发了人工智能模型TransSAFP,首次实现对多肽分子自组装行为及生物功能的精准预测,且效率可提升百亿倍。

论文链接:https://www.nature.com/articles/s41563-025-02164-3


有生命的乐高积木

多肽是一种由两个或以上氨基酸组成的生物活性物质,两个氨基酸连接成为二肽,三个氨基酸为三肽……简单理解,多肽是一种介于氨基酸和蛋白质之间的存在。人的生长发育、免疫调节、新陈代谢都与之息息相关。我们耳熟能详的“胰岛素”,就是人类最早使用的多肽类药物。王怀民实验室,即以多肽为基础,开发设计各种新型的生物功能材料。

而自组装多肽,顾名思义,就像有生命的乐高积木,能够自行完成组装。事实上,自组装是生命体中普遍存在的现象,正如细胞膜的形成、蛋白质的折叠。他们本质都是通过分子间的非共价作用(氢键、疏水、静电作用等),形成聚合体的过程。

多肽在自组装后形成的常见结构,包括纳米纤维、囊泡或纳米管等

这样的特性,让科学家设计不同形态、不同功能的多肽分子成为可能。以治疗疾病为例:就像是向人体精准空投弹药,正常组织中,他们只是平平无奇的氨基酸链条,而到了特定的区域,它们被大量激活,并组装成为能够杀敌的武器。精准制导不误伤无辜细胞,也就不易引起毒副作用。

对了,多肽的自组装往往还都是可逆的:完成使命后,多肽能分解代谢,回归无生物毒性的天然氨基酸,事了拂衣去。

对王怀民实验室而言,多肽是一个泛用性极强的工具,实验室利用它探索癌症、肺纤维化、糖尿病并发症等各种疾病治疗,以及调控细胞行为、监测重要生命活动……

此间种种,都是人类在自然的基础之上,摆弄分子积木。就像用乐高,搭建一个人类不曾见过的城堡。


从“盲人摸象”到“上帝视角”

但是要从大自然的手中接过多肽设计的权杖,并非易事。和蛋白质一样,人类想要了解“多肽宇宙”的全貌都是一件难事。

前文提到,多肽由数个氨基酸构成。世界上共有20种天然氨基酸,以不同方式排列组合后,四肽共有16万种可能,五肽有320万种可能。

此次实验室研究的八肽呢?200亿种。

假设地球上存在一名苦哈哈的博士,他不知疲倦地平均每周合成并验证一条八肽,每次合成的结果还都不重复。那么他从四亿年前的泥盆纪开始工作,到现在差不多合完了。

过去数十年,人们对自组装多肽的发现,主要依靠实验。科学家也积累了一些经验,但“手搓”更多还是依赖试错。像是盲人摸象,难言实现系统性的“设计优化”。

近年来,科学家开始用AlphaFold预测蛋白质三维结构,也用深度学习算法预测多肽。但王怀民介绍,现有AI模型还无法对多肽的自组装行为和功能进行精准预测。换句话说,科学家能预测出一列多肽的形状,但至于功能?还得回到实验室做更多验证。

所以实现对自组装功能多肽(self-assembling functional peptides, SAFP)的精准预测,成为了这项课题的核心。

其实在2020年,王怀民就已经产生了这一研究想法,但苦于人手不足,一直未能落地。彼时他刚从美国布兰迪斯大学化学系加盟西湖大学。

时间来到2022年,此时实验室在多肽自组装领域已经有了一定积累:徐腾焱博士等进行的自组装多肽的设计和预测工作开始投稿,博士生周子傲等做的抗菌研究工作也取得良好的实验结果。在既有基础之上,刘华杨入组,开始了自组装多肽抗菌能力的预测研究。

刘华杨此前有抗菌分子组装的研究经验,同时也对人工智能充满兴趣。他一边合成并验证自组装多肽,一边通过深度学习算法,试图教会AI人体的秘密。但随着研究进行,他们发现AI并不能完全实现自己想要的预测能力。“当时研究已经初步有了苗头,感觉可以深入挖掘一下。王老师跟黄晶老师一商量,觉得这个模型还可以再做进一步的提升。”

走在路上,遇到其他科研工作者,然后展开一番交叉领域的讨论,这是西湖大学校园常常发生的故事。西湖大学云栖校区的道路,当时见证了王怀民与生命科学学院黄晶教授、工学院李文彬教授等,就多肽展开的多番讨论。

2022年12月,黄晶课题组宋子林博士加入这项研究。那个月,ChatGPT横空出世,连普通人都能感受到AI袭来的风压。

两个课题组讨论并重新梳理了AI模型及具体策略,最终使用迁移学习的方式来训练AI:首先利用公开的天然氨基酸抗菌肽数据库,预训练模型,而后将此前合成的400多条自组装多肽,作为小样本信息迁移到公开数据库中。为了进一步增加样本的复杂性,在合成时刘华杨还在20种天然氨基酸基础上,添加了11种非天然氨基酸。

“公开数据集的体量是六七万条,相比之下,我们标注的数据大约只有千分之五。如果不做迁移学习,我们的数据一旦混进去,自组装功能肽的数据分布信息会被大量的公开数据稀释掉。”刘华杨解释道。

在数据准备、架构设计和模型训练各环节上的精益求精,获得了最终的迁移学习预测模型,实验团队将模型命名为TransSAFP。

实验证明,TransSAFP的自组装多肽功能预测准确率高达86%。而后,团队让TransSAFP把200亿条八肽序列全库筛了一遍,花费四天时间。还记得那个花了四亿年合成八肽的“博士”吗?从这个角度说,AI帮助科学家的研究效率提高了百亿倍。

TransSAFP筛选的自组装抗菌多肽相比已知抗菌肽具有较低相似度

更值得一提的是,AI筛完全库后发现,此次预测结果与已知自组装抗菌肽的序列相似度低于0.3。

0.3的含义这里不做过多的解释。简单理解,AI输出的这批具有抗菌能力的自组装多肽,几乎都是全新的,或者说,人类未曾发现过它们——这正是预测的意义。

研究团队还进一步,从中选择了体外效果最好的一条多肽,验证其在肠道感染小鼠模型上的表现。实验显示,这条新多肽治疗效果与抗生素类似;同时,因为是机械力破坏细菌膜,还不会像抗生素那样让细菌产生耐药性。

TransSAFP筛选的p45分子靶向细菌膜并形成组装体,导致细菌死亡

借助AI,人类对多肽的结构预测能力,以及研究效率都得到了极大提升。研究者拥有了一个能够俯瞰多肽的“上帝视角”。


改变研究范式

回到文章最初提到的“胰岛素”,这是人类第一次使用多肽类药物,始于1922年。时隔97年之后,一款糖尿病及肥胖症的口服类多肽药物——司美格鲁肽获批上市。研发人员对这条由31个氨基酸组成的多肽的关键部位进行了修饰,让其可以在体内组装成为纳米结构,从而大大延长了药物在体内的降解周期。2023年,司美格鲁肽全球卖了超过200亿美元。

随着AI的到来,多肽的研究范式正在发生变更,未来更多的“司美格鲁肽”,或许将从TransSAFP这类AI模型中诞生。

TransSAFP模型结构

王怀民表示,此次研究呈现的抗菌性多肽,只是实验团队提供的一个预测范例。未来科研人员若想要设计其他的功能多肽,例如抗击癌症或是其他疾病,只需要准备相应功能的小样本数据集,AI即可进行个性化的“定制”,“指哪打哪”。甚至于在医学之外,定制化的多肽也能在化学催化等基础科研领域拥有广泛应用前景。

这有点像是在过去,信息星星点点散落于互联网各处,直到ChatGPT和DeepSeek等AI助手出现,人们开始摆脱以往费尽心力的搜索和验证,于是,我们的生活习惯就此改变。

科学就是这样一个步步向上的过程。这篇成果之外,王怀民实验室正在基于自组装多肽做更多探索,并希望能够做到个性化的免疫治疗——分析患者的基因特征,AI可以创造更多的自组装肽,实现真正意义上的精准医疗,“我们正在教会AI感知人体、理解生命。”


致谢

西湖大学理学院特聘研究员王怀民与生命科学学院副教授黄晶为论文共同通讯作者,王怀民课题组刘华杨博士与黄晶课题组宋子林博士为该论文的共同第一作者。西湖大学访问学生张雨、吴碧寒博士、陈鼎灏、周子傲、张宏悦博士、李桑爽、冯馨平也为该研究做出了重要贡献。课题得到了国家自然科学基金和浙江省自然科学基金等经费支持。


王怀民实验室

王怀民,2008年本科毕业于天津大学;2015年博士毕业于南开大学,随后在美国布兰迪斯大学化学系从事博士后研究。2019年9月加入西湖大学理学院,任特聘研究员。自2022年1月起,任西湖大学工学院生物医学工程领域兼聘教授。

课题组目前主要开发设计新型生物功能材料,化学生物学工具、活细胞原位标记探针和反应等。方向包括:生物功能材料、多肽水凝胶、多肽体内组装、免疫治疗、纳米医学、神经生物学材料、活性探针。

王怀民实验室成员合影


黄晶实验室

黄晶,清华大学物理系本科(2005)硕士(2007),瑞士巴塞尔大学化学系博士(2011),美国马里兰大学药学院(2012-2017)和国立卫生研究院计算生物学实验室(2015-2017)博士后。2017年11月加入西湖大学生命科学学院,组建计算生物物理与药物设计实验室,2024年1月晋升长聘副教授。学术上致力于开发生物大分子的计算模型和模拟算法,以提升复杂体系分子动力学模拟与计算药物设计的精度和效率;同时利用高性能计算驱动抗肿瘤与抗感染药物的研发。

黄晶实验室成员合影


Baidu
map