jrs直播极速体育nba火箭前沿

jrs直播吧jrs低调看_jrs直播极速体育nba火箭.手机版app下载
发布时间:2020-11-11 来源:jrs直播吧jrs低调看科技 浏览:2379次



研究背景

A.如何获得蛋白质动态过程的结构信息,以建立蛋白质分子精准的构效关系是一个重大的挑战


蛋白质分子是生命的基石。生物系统的各种功能,依赖于各种蛋白质分子不同形式和程度的表达。认识蛋白质的功能,建立在对其结构精准认识的基础上。特别是,蛋白质分子动态过程中结构的实时变化,对揭示具体环境中的蛋白质性质、发展现代生命科学和医学药物研究具有至关重要的意义。因此,《SCIENCE》期刊提出的现代科学125个前沿重要问题中就有三个重大科学问题与测定蛋白质结构相关。如何获得蛋白质动态过程的结构信息,以建立蛋白质分子精准的构效关系,是蛋白质结构研究的核心问题。


B.发展快速响应并实时探测蛋白质动态结构的分子光谱技术是一个重要的科学问题


分子光谱技术,可以通过测量蛋白质对光照的响应信号,利用不同蛋白质的光学特征不同来测定蛋白质结构。比如,X射线光谱,红外吸收光谱,拉曼光谱,圆二色光谱,都可以指认出蛋白质的光学指纹特别是红外光谱,因其对二级结构变化的高敏感成为测定蛋白质结构的一种重要手段 (Nature 2020, 577, 52-59Science 2016, 353,1040-1044Chem. Rev. 2017,117, 10623-10664)

利用红外光谱光学指纹信息预测结构信息,离不开理论模拟的对比和确认。然而,蛋白质分子光谱的理论模拟面临严重的计算瓶颈问题。蛋白质在溶液中的结构是溶质分子与周围环境相互作用的整体效果的反映,由于原子数多,自由度极大,给精确的光谱计算带来了相当大的挑战,因此限制了实验光谱的解读和原位谱学探测技术的发展。因此,光谱模拟如何帮助实现快速响应和实时探测蛋白质动态结构的分子光谱技术,是一个重要的科学问题。



研究出发点

A.蛋白质模型哈密顿量的构建:

蛋白质在红外光谱中有很多特征吸收带,其中酰胺 I (1600-1700cm-1),包含了蛋白质丰富的二级结构信息,α-螺旋、β-折叠、β-转角、卷曲等 因此测量酰胺 I 红外光谱可获得蛋白质的光学指纹信息。然而蛋白质分子中的原子数成百上千,结构自由度相当大,如果用整个分子的结构信息去预测单一的谱学信号,变量太多且不可控,构建机器学习模型相当难而且效果不好。可行的机器学习模型,必须建立在对蛋白质分子结构的合理划分和对片段的性质进行学习和预测的基础上,即分而治之的策略。


Figure 1. Model Hamiltonian for amide I vibrations in a protein.

以酰胺I红外谱为例,我们构建了这样一个哈密顿矩阵,如图1所示。在上述描述酰胺I振动的哈密顿矩阵中,对角元为每个肽键的振动频率(ωi),由N-甲基乙酰胺分子(NMA)的神经网络模型预测得到,两侧的非对角元为相邻两个肽键的振动耦合系数(Jij),由甘氨酸二肽(GLDP)分子的神经网络模型预测得到,其他非对角元元素为非相邻肽


B.机器学习数据产生以及描述符的选取:


为了充分采样结构差异大的NMA分子,我们使用不同的初始构象运行了七组一共241.5 ps时长的从头算分子动力学模拟 (ab initio molecular dynamics, AIMD),每隔50步进行采样以避免结构之间的相关性。为了充分考虑溶剂效应对肽键振动频率的影响,我们提取了动力学轨迹中NMA分子以及其周围5 Å以内的水分子一共9660组数据进行量化计算。对于二肽GLDP分子,为了节省计算资源,我们采用对Ramachandran (-180°≤ϕ≤180°, -180°≤ψ≤180°)每隔进行系统式扫描方式产生初始构象,一共产生了5128组二肽数据用于量化计算产生近邻振动耦合数据。

我们使用NMA以及GLDP分子的库伦矩阵作为机器学习训练的描述符,采用深度神经网络模型对(ωi,Jij)进行学习和预测。所有模拟均在TensorFlow程序上进行。由于库伦矩阵描述符自身的旋转不变性,为了消除 () 训练过程中的方向依赖性,我们对每个NMA分子进行了旋转矩阵操作,将羰基C原子设置为xyz坐标系中的零点,将C-O键转至y轴正方向,将OCN置于x-y平面,然后,对于新的NMA分子的()预测通过乘以旋转矩阵的逆矩阵来获得其原来坐标系下的值。



结果与讨论

A.机器学习模型评估:



Figure 2. (a) Correlation between the DFT-computed (ω_DFT) (black lines/dots) and NN-predicted (ω_NN) (red lines/dots) amide I vibrational frequencies after cross-validation. (b-d) Comparison of the DFT-computed amide I vibrational transition dipole moment in the x, y, z direction (μx,y,z_DFT) (black lines/dots) and NN-predicted (μx,y,z_NN) (red lines/dots) after cross-validation. (e) Amide I vibrational normal modes (a, b) and local modes (c, d) of GLDP with DFT B3LYP/cc-pVDZ. (f) Comparison of DFT-computed (J_DFT) (black lines/dots) and NN-predicted (J_NN) (red lines/dots) coupling constants of nearest neighboring amide I modes after cross-validation.

我们采用交叉检验的方式来衡量神经网络模型的预测效果,从图2中可以直观的看到,神经网络对于频率以及振动耦合常数的预测效果很好,这是因为它们主要取决于基态结构。但是,由于跃迁态(例如,振动跃迁偶极矩)涉及两个不同的振动态,它对结构的变化更加敏感,而我们的描述符只包含基态信息,因此会看到更多的异常值。总体来说,我们对(ωi,, Jij)的预测有着高的皮尔逊系数(r>0.9)以及极低的误差保证了我们后续构建振动激子哈密顿量的准确性。


Figure 3. Machine learning protocol for predicting protein IR spectroscopy.

使用机器学习预测蛋白质红外光谱的整个流程如图3所示,首先我们将蛋白质拆分为单独的肽键和二肽,由NMA分子NN模型预测的(ωi)以及()用于生成哈密顿量的对角元元素和由非相邻肽键之间的耦合产生的非对角元素(通过偶极近似计算)。从GLDP分子NN模型预测的Jij值作为邻近二肽的振动耦合用于生成非对角线元素。最后,我们对整个模型哈密顿量进行对角化求解得到蛋白质的红外光谱。同时,我们也将这个ML工具发布到了网上,提供实时的蛋白质光谱预测(http://dcaiku.com:12880/platform/first)



B. ML protocol对蛋白质二级结构的分辨


为了测试我们开发的机器学习方案预测光谱的准确性,我们测试了12中不同类型的蛋白质,即不同比例的α-螺旋和β-折叠,使用机器学习预测了它们的红外光谱并与实验光谱进行了比较。


Figure 4. Good agreement (the quantitative agreement between the predicted and experimental spectra were measured by Spearman rank correlation coefficients, see Table 1) is obtained between the experimental spectra of the proteins measured in D2O (black lines) and the ML predictions based on 1000 MD configurations (red lines). Intensity is scaled to have the same maximum intensity for each panel.

Table 1. ML predicts IR protein spectra with the root mean square error (RMSE) and high Spearman rank correlation (ρ) indicates the quantitative agreement with experiment. Structures of 12 proteins with different sizes were taken from the Protein Data Bank, representing a diverse range of secondary structure contents, i.e., different fractions of α-helix and β-sheet. The IR spectrum of each protein was computed based on 1000 MD configurations. All reported calculation times refer to calculations on eight cores of an Intel(R) Xeon(R) CPU (E5-2683v4 @ 2.1GHz).


我们从Spearman rank correlation(ρ)来衡量理论模拟光谱与实验测量光谱之间的相似度。从4和表1中可知,理论预测与实验测量吻合较好(11个蛋白ρ> 0.80,仅有1DHRρ0.71)。得益于机器学习对光谱模拟巨大的速度提升,我们可以模拟1000个蛋白质动力学快照(这对直接的量子化学计算会非常昂贵)来预测红外光谱,从而捕获每种蛋白质的动态特征。总体来说,机器学习模型预测的光谱成功地再现了实验光谱的基本特征(主峰和线形)


Figure 5. (a) From left to right : Simulated (red line) and Experimental (black line) IR spectra of Ubiquitin at four different temperatures (1.6 ° C ~ 82.6 ° C) and the temperature variation of the dominant peak position. (b) The ML-predicted IR spectra of the Trp-cage protein along its folding path (S1the original unfolded strand structure; S25: slightly folded but retaining the coil structure; S50: folding rapidly with the emergence of helix elements; S75-S100: stably folded protein with helix structures forming a cage.) All spectra are averaged over 100 (1000) MD snapshots for each state of Trp-cage (Ubiquitin).

为了进一步测试我们机器学习模型的鲁棒性和迁移性,我们模拟了不同温度下(1.6℃, 28.6℃, 55.6℃, 82.6℃)Ubiquitin蛋白的红外光谱,从图中我们可以看到,随着温度的逐渐升高,Ubiquitin蛋白的红外光谱逐渐蓝移,机器学习模拟的结果与实验光谱很好的吻合。这说明我们的机器学习模型对于变化的外部环境因素(温度变化)具有良好的迁移性。随后,我们使用开发的机器学模型去跟踪Trp-Cage蛋白质折叠过程,从图中可以看到,随着折叠过程的进行,红外光谱有着10cm-1(S1:1652 cm-1, S25:1650 cm-1, S50:1646 cm-1, S75:1644 cm-1, S100:1642 cm-1)红移,机器模拟的结果与之前实验以及理论模拟的结果一致,这同样说明了我们的机器模型能准确的分辨蛋白质二级结构的变化,可以用于实时跟踪蛋白质的折叠过程。



总结与展望


我们报道一种基于第一性原理数据的机器学习流程,该流程可以根据蛋白质的基态结构信息准确的预测蛋白质的酰胺I带红外光谱。与传统的量子化学计算方法相比,它大大提高了蛋白质红外光谱的理论模拟速度。更重要的是,所建立的机器学习模型具有优秀的可迁移性,可以预测训练集范围以外的蛋白质光谱响应,模拟不同状态下的信号变化,从而分辨蛋白质的二级结构、考察温度影响、跟踪蛋白质折叠等。目前我们正在通过增加训练数据集并且考虑显性的溶剂效应来提高我们机器学习模型的准确性,并探索将该模型扩展到其他光谱性质研究,包括紫外吸收(UV)、拉曼(Raman)、和频光谱 (SFG)、多维光谱(Multidimensional Spectroscopies)


文献来源


论文标题:A Machine Learning Protocol for Predicting Protein Infrared Spectra.

论文链接:http://dx.doi.org/10.1021/jacs.0c06530.


science编辑推荐我们的机器学习-量子化学技术