细胞内基因表达是将遗传信息从基因传递到 RNA,然后再传递到蛋白质的过程,很大程度上决定了细胞的性状。然而,基因表达常常表现出随机性,因为它涉及到多种低拷贝分子的随机参与,包括聚合酶、核酸、转录因子、核糖体等。此外,由于生物调控网络的高度复杂性和非线性,基因表达可能会表现出混沌特征,即对环境和代谢物的微扰十分敏感。
因此,即使在相同的环境条件下,基因型完全相同的细胞之间也存在表型差异,这种现象被称作表型异质性。与此相对应的是,当在同一环境中培养的单克隆细胞群体中,针对每个个体的蛋白质表达量在某一时间点进行统计时,会观察到一种分布。这个分布的平均值表示表达的强度,而变异系数则代表表达的噪声水平。这两个特征与种群的表型密切相关,例如代谢产物的生成量、药物抗性和持留性等。
然而,目前对这两个特征的同时定量研究往往依赖于使用流式细胞仪或者荧光显微镜对单克隆种群进行一一测试,十分耗时耗力。为解决这个问题,研究团队针对流式分选-测序实验框架和数据产生过程提出了深度学习辅助的流式分选-测序方法(dSort-Seq),可实现对基因表达特征的高通量并行表征。
在该方法中,研究团队提出使用双成分对数混合高斯(LGMM)来表示单克隆种群基因表达分布。相较于传统的伽马分布和对数正态分布,LGMM 体现出更高的精确度和鲁棒性。随后,研究团队根据流式分选-测序实验的数据生成过程,构建了贝叶斯神经网络进行参数学习,用于表达特征的计算。
研究团队首先使用课题组先前报道的流式分选-测序数据验证了 dSort-Seq 的可靠性,并将该方法应用于计算丙二酰辅酶 A 生物传感器组合文库在不同效应物浓度下的响应大小,得到的结果与单独流式测试结果一致。证明该方法可以应用于生物传感器剂量-响应曲线的高通量表征。
此外,研究团队对大肠杆菌中转录和翻译对表达噪声的贡献进行了深入探究。为此,他们构建了大肠杆菌内源启动子文库(库容量 3804)和启动子 RBS 组合文库(300 个启动子和 13 个 RBS,库容量 3900),并使用 dSort-Seq 对两个文库的表达特征进行定量研究。研究发现转录与表达噪声强度(Fano 因子)存在正相关关系,且转录和翻译对噪声的贡献大小基本相同,这与传统的翻译爆发机制相悖。进一步的,研究团队发现呈现出高噪声表型的启动子往往具有高的 T 碱基含量,而这一现象可能与重叠的 RpoD 识别位点有关。最后,研究团队证明重叠的 RpoD 识别位点会引发高的表达噪声,预示了一种新的噪声调控方案。
▲图 | 重叠的 RpoD 识别位点引发高表达噪声