为了构建预测模型,选择了等电点(IP)、极性(PL)、亲水指数(HI)、分子量(MW)、螺旋指数(Ph)和转动指数(Pt)等7种氨基酸特征(AAF)用作位点特异性特征。为了解释肽的特征,AAF的偏差、最大值和最小值被生成为全局特征(GF)。计算了300个肽(阳性=150,阴性=150)的AAF和GFs等肽特征用作解释变量。使用三种算法(SVM、RF和LR)构建预测模型,并通过比较准确度、精确度和召回率来评估模型性能。概率>0.5的肽被指定为阳性,概率<0.5的肽被指定为胆汁酸结合阴性。除了5-mers和7-mers的精度分数外,所有RF分数在三种测试算法中都是最高的(表 2)。因此,选择RF作为预测算法。
4-mer肽的得分低于较长肽的得分(表 2)。将阳性数据集和阴性数据集的平均荧光强度之比定义为P/N强度比。在表 1中,4-mers的P/N强度比(2.67)低于较长肽(5-mers为3.63,6-mers为4.11,7-mers为3.87)。这是由于4-mer训练数据的整体荧光强度相对较低所致。模型性能与P/N强度比大致相关。性能差的原因是当P/N强度比较低时,所获得的模型预测的FPs和FNs数量相对较多。
为了预测肽的生物活性,定量分析肽的结构与生物活性之间的关系引起了许多物理生物化学家的兴趣。据报道,位于N端的氨基酸比位于中间端和C端的相同氨基酸更具亲水性。因此,4-肽可能比较长的肽(如5-、6-和7-肽)更具亲水性。疏水性是肽与胆汁酸强结合所必需的,而4-mer 肽与胆汁酸之间的疏水相互作用较低,其与胆汁酸结合力较低的原因也很重要。在之前的研究中,鉴定了胆汁酸结合4-mer肽,如NGLK、YEAR等。与6-mer结合肽相比,这些肽显示出类似或更高的结合活性。与长肽相比,4-mer结合肽可能表现出不同的物理化学特征。
在输入变量的重要性分析中发现,前10个选定特征中的大多数涉及肽的GFs,但两个特定特征除外:4-mers的residue2_Molecular_weight和7-mers的residue1_Isoelectric_point。此外,4-7 mers的前10个选定特征中分别有两个、四个、四个和五个特征与肽等电点有关;有五个、三个、两个和两个特征与分子量有关。这表明GFs比4-7 mers中胆汁酸结合活性的位点特异性特征更重要。胆汁酸分子是两亲性的,具有疏水性类固醇核和亲水性羟基,因此具有较强的表面活性剂作用。由于肽与胆汁酸的结合可以发生在两个方向上,因此位点特异性肽特征可能不那么重要。在输入变量中与等电点和分子量有关的的特征最重要,表明具有高等电点或高分子量的肽与胆汁酸结合强烈。因此,碱性或芳香肽对胆汁酸具有较高的结合活性。一些研究调查了胆汁酸与其他化合物之间的结合机制,并揭示了疏水性氨基酸,尤其是芳香族氨基酸,与胆汁酸胶束相互作用。这些发现与分析的前10个特征一致。
分析了多肽阵列的氨基酸残基出现频率,以验证学习数据的再现性。在阳性肽的氨基酸出现频率中,F、K、R、W和Y这五个氨基酸的出现频率较高。在阴性肽中,C、D和E这三种氨基酸相对较高,与特征重要性分析的结果一致。然而4-mers略有不同:A和G在阳性肽中相对较低,而D和E在阴性肽中相对较低。
2.3 食用肽数据库构建及胆汁酸结合活性预测