', ); ?> 研究人员转向深度学习来解码蛋白质结构 人工智能正在迎...—华夏中医论坛

 找回密码
 立即注册

微信登录

微信扫一扫,快速登录

查看: 272|回复: 0

研究人员转向深度学习来解码蛋白质结构 人工智能正在迎...

[复制链接]

3万

主题

36

回帖

10万

积分

版主

积分
103397
发表于 2022-4-9 19:40:09 | 显示全部楼层 |阅读模式
研究人员转向深度学习来解码蛋白质结构
人工智能正在迎来结构生物学的一场革命。它会走多远?

28 年前,由当时在巴尔的摩马里兰大学的 John Moult 领导的计算生物学家发起了一项雄心勃勃的大规模实验,旨在回答生物学中最具挑战性的开放性问题之一:研究人员如何确定任何生物的结构?蛋白质?



AlphaFold 使用 AI 预测蛋白质的形状;结构生物学家正在使用该程序加深我们对大分子的理解。这张图片显示了 AlphaFold 预测的在 T 细胞表面发现的糖蛋白的结构(洋红色)。研究人员使用其他数据来完成结构(青色)。

结构是理解生物功能的关键,因为蛋白质的形状直接决定了它的作用。但蛋白质是复杂的分子,由成百上千个氨基酸组成的连接链缠绕并折叠成曲折的线圈和褶皱,这些线圈和褶皱结合并扭曲成无数种构型。如果这还不够,蛋白质也会随着时间而改变,这进一步阻碍了研究人员在任何给定环境下定义蛋白质结构的努力。加州大学戴维斯分校的结构生物学家 Andriy Kryshtafovych 自 2000 年以来一直是 Moult 实验的联合组织者,他说:“这是一个如此复杂的问题,有这么多参数,这么多出错的方法。” “我们无法相信它可以解决。”

结构生物学的革命不仅仅归功于人工智能。这些算法必须在由核磁共振光谱或低温电子显微镜 (cryo-EM) 等技术生成的高分辨率晶体结构的大数据集上进行训练,这些数据产生了上述称为 β-半乳糖苷酶的蛋白质复合物的图像。图片来源:Veronica Falconieri 和 Sriram Subramaniam(国家癌症研究所,贝塞斯达,马里兰州)。

在 1970 年代,生物学家进行的实验表明,仅从氨基酸序列就可以预测蛋白质的结构。几十年来,通过使用 X 射线晶体学等实验工具研究分子,蛋白质结构已被一一确定。但由于没有通用的操作手册,从生物物理学到化学再到生物进化等领域的研究人员都在寻找利用序列-结构连接的策略。进展通常是渐进的:例如,某些氨基酸的小组合产生可预测的形状,可以作为蛋白质亚结构的模板。如果蛋白质是 1,000 块乐高积木房子,这些模板可能会提供关于房子包含多少房间和门布置的详细信息的总体计划。

1994 年,当 Moult 和他的同事发起他们的计算驱动实验时,称为 CASP(用于蛋白质结构预测的关键评估),研究人员刚刚开始开发计算机程序来解决这个问题。然而,它最近的迭代在很大程度上颠覆了 Kryshtafovych 认为问题无法解决的信念——这在很大程度上要归功于使用深度学习算法来绘制蛋白质结构的人工智能 (AI) 方法的兴起。2020 年,CASP 的领跑者方法使用 AI 预测蛋白质结构,平均准确率接近 90%,与最复杂的实验技术相提并论。最重要的是,它表明人工智能可以在几分钟内完成过去需要数年甚至数十年才能完成的工作。

“这一进步简直是惊人的,”帕萨迪纳加州理工学院的化学工程师弗朗西斯·阿诺德说,她在 2018 年因利用定向进化创造酶而获得诺贝尔奖。“它将彻底改变结构生物学。” 然而,她指出,结构只是理解这些大分子如何发挥作用的更大难题中的一部分。

在研究人员使代码和数据存储库开放访问和免费提供的新兴趋势的支持下,人工智能驱动的结构发现加速正在扩展到远远超出基本蛋白质结构探索的用途。许多研究人员现在正在利用人工智能来指导相关应用,例如设计药物、预测蛋白质如何相互作用以及绘制其他生物分子(如 RNA)的结构图。未来,这些努力既可以回答有关生命微型机械的重大问题,也可以为医疗保健和疾病治疗提供更精确的方法。

发现问题


在其历史的大部分时间里,结构生物学领域一直受到晶体学和其他成像技术的进步的推动,这些技术帮助研究人员确定大的基本生物分子(如蛋白质和 RNA)的形状和结构。但在过去,解析单个结构可能需要数年的成像、计算和分析。确定结构需要找到巧妙的方法来稳定蛋白质并保持足够长的时间以获得不模糊的图像。


了解这些蛋白质结构的探索可以追溯到近 200 年前。欧洲化学家在 19 世纪首次发现了蛋白质,他们在蛋清和小麦面筋等物质中发现了一类独特的大分子。“蛋白质”一词最初出现在瑞典化学家 Jöns Jacob Berzelius 写给荷兰化学家 Gerard Johann Mulder 的一封信中,作为对这些分子的描述。然而,直到 20 世纪,研究人员才开始在弄清楚蛋白质是如何组合在一起的方面取得进展。


在 1951 年初在 PNAS 上发表的一系列具有里程碑意义的文章中,Linus Pauling、Robert Corey 和 Herman Branson 描述了蛋白质的预测结构。他们的方法很简单:他们推断,如果他们知道基本成分并了解这些成分如何在原子水平上相互作用,他们就可以预测分子结构 。他们是第一个认识到——比晶体学家对蛋白质成像早了整整十年——氨基酸可以弯曲并结合成 α 螺旋和 β 片层,这是几乎每种蛋白质骨架中的两个明显结构。在 1960 年代进行的实验证实了他们的预测,并且他们的工作在超过 40 年的时间里保持着无与伦比的准确性。


Kryshtafovych 说,2000 年代对使用计算机算法来提高对蛋白质形状的理解的兴趣激增,但进展缓慢,正如 CASP 结果所证明的那样。到 2010 年代初,研究人员正在试验更复杂的计算方法和人工智能工具,如人工神经网络。这些算法受到大脑布线的启发和命名,使用大型训练数据集来开发将输入连接到已知输出的抽象规则。这就是人工智能系统如何识别照片中的物体——或者,在结构生物学的情况下,将氨基酸组合在一起构建蛋白质。


然而,Kryshtafovych 说,早期的努力是费力的,而且基本上是无效的。直到最近 CASP 实验的准确性爆炸式增长,人工智能才开始通过利用深度学习架构来提供服务。宾夕法尼亚州匹兹堡卡内基梅隆大学的 Amir Farimani 说,这主要是因为结构生物学既微妙又复杂,他一直在使用深度学习设计针对严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 的合成抗体。肽或蛋白质中可能的氨基酸组合的数量可能会导致涉及数千个维度的数学问题——这是深度学习的理想任务,它擅长识别模式并将其应用于新案例。由 10 个氨基酸组成的蛋白质需要 10 20不同的可能组合。


“设计空间非常巨大,”位于伊利诺伊州莱蒙特的阿贡国家实验室的计算生物学家 Arvind Ramanathan 说。“人工智能革命让我们能够窥探我们从一开始就看不到的东西,”他说。


革命的暗示CASP 就像一场刺激创新的竞赛,将深度学习从结构生物学的边缘拉到了研究的前沿。它是这样工作的:在几个月的时间里,相互竞争的研究小组开发了模型来预测 CASP 组织者选择的几十种目标蛋白的结构。参赛者仅收到每个目标的氨基酸序列。该过程是双盲的,因此组织者事先并不知道蛋白质的形状,而目标是最近解决但尚未提交到蛋白质数据库(已知大分子结构的数据库)的蛋白质。在比赛结束时,组织者根据他们的模型在几个类别中的准确性对参赛者进行排名。


自从 Moult 和他的同事推出 CASP 以来,该实验每两年举行一次。直到 2016 年,参赛者的准确率很少超过 20%。然后AI进入了现场。那一年,在 CASP12 期间,英国伦敦大学学院的计算生物学家 David Jones 使用由深度学习算法提供支持的模型将之前的准确度水平提高了一倍以上。在他的工作之后,神经网络席卷了 CASP 社区以及更广泛的结构生物学领域。


到 2018 年的 CASP13,大多数团队都在使用深度学习来预测蛋白质结构,将准确度水平提高到 60% 左右。那一年的最高分是 AlphaFold,这是由 DeepMind 的研究人员设计的模型,DeepMind 是一家总部位于伦敦的人工智能公司,隶属于 Alphabet Inc.,该公司还拥有谷歌。(Frances Arnold 是 AlphaFold 的母公司 Alphabet 的董事会成员。)在 CASP14 上,AlphaFold 在许多目标蛋白上的得分都超过了 90%。比赛中其他由人工智能驱动的参赛者达到了 70% 以上的准确率,这在两年前是不可想象的。


使用 AlphaFold,“如果你给我们序列,我会给你结构,”Farimani 说。他指出,这场革命不仅仅归因于人工智能。这些算法必须在由核磁共振 (NMR) 光谱或低温电子显微镜 (cryo-EM) 等复杂技术生成的高分辨率晶体结构的大型数据集上进行训练。“它们齐头并进,”他说,并指出人工智能模型在预测结构方面几乎与那些先进的实验方法一样擅长。“现在,问题基本解决了,”Kryshtafovych 补充道。


让人工智能发挥作用自 AlphaFold 首次亮相以来,世界各地越来越多的团体一直在推出新的基于人工智能的应用程序和进步,继续推动结构生物学向前发展。2021 年 7 月,DeepMind 与欧洲生物信息学研究所合作,公开发布了数十万种蛋白质的结构,不仅包括来自 CASP 的蛋白质,还包括所有大约 20,000 种已知的人类蛋白质,以及其他科学领域的全部蛋白质组。重要的生物,例如老鼠和果蝇。(相比之下,2016 年已知大约 100,000 个蛋白质结构。)


其他重大突破随之而来。同年 7 月,西雅图华盛顿大学的一个小组推出了 RoseTTAFold,这是一个使用神经网络根据缺乏的基因组信息预测蛋白质结构的程序。8 月,加利福尼亚州斯坦福大学的计算机科学家推出了一种机器学习方法,该方法可以使用非常少的训练数据预测 RNA 的结构。领导机器学习工作的斯坦福计算机科学家 Ron Dror 说,由于缺乏用于训练的实验数据,RNA 结构的预测一直具有挑战性,但一种新的深度学习方法解决了这一挑战。“结构预测对于难以通过实验确定结构的分子类型特别有价值,”比如 RNA,他说。


人工智能革命让我们能够窥探我们从一开始就看不到的东西。

——阿文德·拉马纳坦


Ramanathan 说,这些进步的最终目标是一种机器学习工具,“它将帮助生物学家更好地进行实验”。在 Argonne,他使用深度学习来研究蛋白质相互作用,例如 SARS-CoV-2 刺突蛋白如何与宿主细胞相互作用,以及称为“内在无序蛋白质”的异常复杂的分子。这些复杂的蛋白质不能可靠地折叠成可预测的三维形状,并且与许多疾病有关,包括癌症、糖尿病和神经退行性疾病。Ramanathan 的目标是使用深度学习模型来预测其中一些不规则的蛋白质结构,然后使用包括晶体学和电子显微镜在内的各种实验技术对其进行验证。


最近对复杂蛋白质相互作用的预测可以揭示重要生物过程的机械机制。2021 年 10 月,DeepMind 研究人员使用 AlphaFold 模型来预测由多种蛋白质组成的复合物。2021 年 11 月,一个国际小组结合 AlphaFold 和 RoseTTAFold 的优势,评估了 830 万对蛋白质之间的相互作用,并预测了酿酒酵母 ( Saccharomyces cerevisiae ) 中涉及重要生物学功能的大型蛋白质组装。像这样的进步也推动了该领域进一步进入蛋白质设计。


研究人员也越来越多地部署深度学习来预测可能结合目标分子的结构,用于个性化癌症治疗或能够中和 SARS-CoV-2 的合成抗体。Farimani 在卡内基梅隆大学的工作展示了人工智能可以帮助发掘 COVID-19 新疗法的一种方式。他和他的合作者首先收集了关于抗体氨基酸序列的数据——这种蛋白质可以抵抗体内的入侵者——对抗艾滋病毒、登革热、非典、流感和埃博拉病毒等病毒。然后,他们训练了一些候选机器学习模型来识别能够中和目标病毒的抗体。最后,他们将有关 SARS-CoV-2 的数据输入到最准确的模型中,以识别最有可能抑制病毒的抗体序列。


Farimani 说,AlphaFold 的非凡之处在于它可以仅根据氨基酸序列做出准确的预测。“你不需要数学或对分子物理的理解,”他说。“这真是一个了不起的工具。” 而且因为它是开放访问的,他甚至让他班上的学生使用它来完成作业。

黑匣子警告人工智能驱动的结构生物学进步不仅推动了基础科学的发展,而且揭示了新的问题和机遇。“我相信现在还为时尚早,”Dror 说。“最近的结果非常令人兴奋和令人印象深刻,同时还有很多工作要做。”

例如,生物系统中的蛋白质不断改变结构。它们摆动和变形,改变形状并随着系统移动。当前的方法——计算和实验——产生平均蛋白质结构。“平均结构并不是唯一重要的东西,”Dror 说。“超越这一点,预测整套结构并确定哪些结构将在细胞中以及在什么条件下采用,那就太好了。” Ramanathan 预测,人工智能模型也可能在应对这一挑战方面发挥作用。


但是结构只讲述了生命机器如何工作的部分故事:研究人员仍然需要将这些结构与分子的功能联系起来。“你可以得到一种酶的结构,但仍然不知道它是如何工作的,”阿诺德说。她说,深度学习可能也会帮助生物学家揭开这个谜团,但这不会马上发生。“我们将在某个时候有足够的数据和建模要求来为功能做同样的事情,”她说。“但这是一个数量级的复杂问题,需要不同类型的数据。结构只是这些数据的一部分。”


神经网络本身也存在挑战。也就是说,研究人员并不确切知道算法如何做出如此准确的预测。“我们不知道神经网络学到了什么,”Kryshtafovych 说。(见新闻专题:深度学习的局限是什么)该算法根据训练数据而不是自然规律生成自己的抽象规则,这意味着它的推理可能无法解码,即使人们可以破解程序和对等内部。将模型拆开不会揭示神经网络发明的规则。“没有数学函数,也没有分析解释如何建立这种复杂的联系,”法里马尼说。

不管是什么原因,神经网络很可能不使用指导生物系统中蛋白质形状的自然机械规则。“为什么大自然选择这条路而不是那条路?” 克雷什塔福维奇问道。“这些最近的成功并不能帮助我们了解这一点。”


未来,研究人员将看到深度学习的作用不仅在于了解蛋白质的形状,还在于了解它在生命系统中的相互作用。“假设我想构建一种蛋白质并且我对它的形状有所了解,但我想将它插入生物体并使其发挥作用,”Ramanathan 说。深度学习模型不仅可以预测产生所需形状的氨基酸序列,还可以预测它们的行为方式——以及它们与生物邻域中的其他分子的相互作用——一旦它们到位。


阿诺德说,了解蛋白质的结构是朝着回答有关大分子如何相互作用、进化和驱动生命本身的更大问题迈出的一步。“我们需要更多的东西来彻底改变我们对生物学的全面理解。这更像是一场游戏,而不仅仅是解决问题,”她说,“但这是一场精彩的游戏。”

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

QQ|Archiver|手机版|小黑屋|华夏中医论坛 ( 沪ICP备2020030433号 )

GMT+8, 2024-9-20 11:53 , Processed in 0.348375 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表