鉴于基因上位效应影响,进一步迭代进化上述3个关键性基因可能会诱发代谢通路失衡,导致进化不确定性。为此,本团队开发了ProEnsemble机器学习框架(图5),优化进化通路启动子组合,缓解进化途径的基因上位效应影响。本研究尽可能选取不同分布的数据,避免训练进入局部最优解,根据Al3+
信号,从约1000个克隆子中收集到相对平衡的数据集,柚皮素产量范围在50.8至1044 mg/L之间。Top1的NAR1.0菌株柚皮素产量比对照组高出4.44倍。通过对数据集进行十折交叉验证,评估13种常规预测器的均方根误差(Root Mean Square Error, RMSE),随后通过前向模型选择,将误差最小的预测器依次进行集成,选择RMSE最小的集成模型作为最终的预测模型。皮尔逊相关系数(Pearson Coefficient Correlation, PCC)也达到了0.74,显示出该模型在真实值和预测值之间有更好的相关性。
该ProEnsemble模型预测的Top5菌株柚皮素产量均高于700 mg/L,比随机采样(960样本有5个高产菌株)更具高效性和准确性。然而,该数据集仍存在不平衡分布问题,可能限制了模型的预测能力,导致Top5菌株产量均未超过NAR1.0菌株。为此,重新从1500个克隆子中进一步扩大训练集,分别用高于400、500、600、700和800 mg/L数据集优化模型。最终,在初始数据集中增加27个高于600 mg/L的数据集后,模型表现最佳,PCC从0.74提高到0.82,上述结果揭示了数据集平衡分布对增强模型性能的重要性。结果显示,第二轮预测的Top5菌株均能高效合成柚皮素。NAR2.0产量最高,为1.21 g/L,比NAR1.0高出16%,比未经启动子优化的初始构建体高出5.16倍。值得注意的是,随机启动子库中超过99.11%的菌株产量低于1g/L,揭示了ProEnsemble集成模型可显著提升挖掘高产菌株的可能性。

图5 机器学习框架ProEnsemble进一步缓解进化通路各基因间的上位效应(机器学习模块)
此外,我们用NAR2.0在1L发酵罐中进行分批补料发酵,12h柚皮素产量为660 mg/L,48h时达到3.65 g/L,这是文献中报道的直接从酪氨酸生产柚皮素的最高产量,为文献报道以酪氨酸为底物对应产量的3.41倍,为香豆酸中间体投喂发酵产量的3.02倍(图5)。鉴于本研究仅改造了途径酶和启动子,未来的代谢工程策略可进一步提高柚皮素产量。