2024年5月8日,谷歌发布了AlphaFold 3.AlphaFold是谷歌DeepMind开发的用来预测蛋白质结构的AI系统。
蛋白质是生命的基本组成部分,它们在细胞中执行各种功能。预测蛋白质的三维结构对研究人员来说至关重要,因为理解它的结构能帮助揭示其功能和在生物体中的作用。AlphaFold是由谷歌DeepMind开发的一种AI系统,它可以根据蛋白质的一级氨基酸序列预测其三维结构。AlphaFold的表现通常能达到与实验相当的准确性,为科学界提供一个强大的工具,加速了我们对生命分子复杂性的理解。
在了解AlphaFold 3之前,先以AlphaFold 2为例了解AlphaFold是怎么预测蛋白质结构的。
由于AlphaFold 2的输出仅是预测,因此一些指标通过置信度分数来测试这些预测的准确性。pLDDT 和 PAE 就是两种主要的指标。除此之外,pTM和ipTM也被用来揭示一些特定方面的置信水平。
不同的指标揭示蛋白质不同部分或状态预测的准确性。那么,接下来会重点围绕以下两点说明指标的置信度是如何在蛋白质预测准确度评估上发挥作用的。
指标一:预测局部差距测试(the predicted local distance difference test, 简称pLDDT)
这是一种用来评估蛋白质结构预测局部准确性的指标。它是一个残基级别的测量方法,范围从0到100.分数越高,表示预测的准确性越高,意味着对蛋白质结构的预测越有信心。
等级 |
分数区间 | 表征部位 |
表征状态 |
非常高 |
pLDDT>90 |
蛋白质球状域(the structure of a globular domain of a protein ) | 蛋白质折叠状态 |
高 |
90>pLDDT>70 |
蛋白质球状域(the structure of a globular domain of a protein ) | |
低 |
70>pLDDT |
内在无序区域(IDRs,是指蛋白质中在自然状态下没有固定三维结构的区域) | |
非常低 | pLDDT<50 | 内在无序区域(IDRs,是指蛋白质中在自然状态下没有固定三维结构的区域) |
指标二: 预测对齐误差,(Predicted Aligned Error,简称PAE)
PAE是AlphaFold 2用来衡量其对蛋白质结构中各个域相对位置置信度的一个指标。分数越高,表示AlphaFold 2在预测这些域的位置时的不确定性越大,即误差越高。
pLDDT和PAE之间的相关性
虽然pLDDT和PAE两个指标衡量蛋白质结构的不同方面,但它们在某些情况下可能存在强相关性。比如,当一个蛋白质是无序的,即其结构在进化过程中变化较大或稳定,它的pLDDT分数可能会很低,表示AlphaFold 2对这个蛋白质的结构预测不够自信。这种情况下,由于结构的不确定性,PAE也可能很高。因此,对于无序蛋白质,pLDDT低往往伴随着PAE高,显示出预测的不确定性和可能的错误程度。
AlphaFold的输入和输出
AlphaFold唯一基本输入是你的目标蛋白质的氨基酸序列。然而,你也可以提供额外的数据来指导它进行更精准的结构预测。它输出的内容包括蛋白质结构和各类置信指标。
信息来源:https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/#responsibility
原文始发于微信公众号(数据合规与隐私设计):AlphaFold,蛋白质结构预测模型初探
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论