《合成生物学》推荐 | 清华张翀团队开发深度学习辅助的流式分选-测序方法，实现对基因表达特征的高通量精准并行表征

摘要

近日，清华大学张翀团队报道了一种高精度的对蛋白表达特征进行大规模并行表征的方法，该方法可应用于对混合文库中各个基因型对应的蛋白表达均值和异质性的高通量表征。

研究内容

细胞内基因表达是将遗传信息从基因传递到 RNA，然后再传递到蛋白质的过程，很大程度上决定了细胞的性状。然而，基因表达常常表现出随机性，因为它涉及到多种低拷贝分子的随机参与，包括聚合酶、核酸、转录因子、核糖体等。此外，由于生物调控网络的高度复杂性和非线性，基因表达可能会表现出混沌特征，即对环境和代谢物的微扰十分敏感。

因此，即使在相同的环境条件下，基因型完全相同的细胞之间也存在表型差异，这种现象被称作表型异质性。与此相对应的是，当在同一环境中培养的单克隆细胞群体中，针对每个个体的蛋白质表达量在某一时间点进行统计时，会观察到一种分布。这个分布的平均值表示表达的强度，而变异系数则代表表达的噪声水平。这两个特征与种群的表型密切相关，例如代谢产物的生成量、药物抗性和持留性等。

然而，目前对这两个特征的同时定量研究往往依赖于使用流式细胞仪或者荧光显微镜对单克隆种群进行一一测试，十分耗时耗力。为解决这个问题，研究团队针对流式分选-测序实验框架和数据产生过程提出了深度学习辅助的流式分选-测序方法（dSort-Seq），可实现对基因表达特征的高通量并行表征。

▲图 | 流式分选-测序方法及数据处理流程

在该方法中，研究团队提出使用双成分对数混合高斯（LGMM）来表示单克隆种群基因表达分布。相较于传统的伽马分布和对数正态分布，LGMM 体现出更高的精确度和鲁棒性。随后，研究团队根据流式分选-测序实验的数据生成过程，构建了贝叶斯神经网络进行参数学习，用于表达特征的计算。

▲图 | 模型的图表示和参数学习

研究团队首先使用课题组先前报道的流式分选-测序数据验证了 dSort-Seq 的可靠性，并将该方法应用于计算丙二酰辅酶 A 生物传感器组合文库在不同效应物浓度下的响应大小，得到的结果与单独流式测试结果一致。证明该方法可以应用于生物传感器剂量-响应曲线的高通量表征。

此外，研究团队对大肠杆菌中转录和翻译对表达噪声的贡献进行了深入探究。为此，他们构建了大肠杆菌内源启动子文库（库容量 3804）和启动子 RBS 组合文库（300 个启动子和 13 个 RBS，库容量 3900），并使用 dSort-Seq 对两个文库的表达特征进行定量研究。研究发现转录与表达噪声强度（Fano 因子）存在正相关关系，且转录和翻译对噪声的贡献大小基本相同，这与传统的翻译爆发机制相悖。进一步的，研究团队发现呈现出高噪声表型的启动子往往具有高的 T 碱基含量，而这一现象可能与重叠的 RpoD 识别位点有关。最后，研究团队证明重叠的 RpoD 识别位点会引发高的表达噪声，预示了一种新的噪声调控方案。

▲图 | 重叠的 RpoD 识别位点引发高表达噪声

文章信息

该研究以《深度学习辅助的流式分选-测序方法可以实现基因表达特征的高通量精确表征》（Deep-learning-assisted Sort-Seq enables high-throughput profiling of gene expression characteristics with high precision）为题目的研究论文于 11 月 8 日在《科学进展》（Science Advances）期刊发表。

清华大学化工系张翀教授和 2018 级博士冯汇宝（现为加州理工学院博士后）为该论文的共同通讯作者，冯汇宝和 2019 级硕士李帆（现为苏黎世联邦理工学院博士）为该论文的共同第一作者，清华大学深圳国际研究生院生物医药与健康工程研究院常务副院长邢新会教授、西湖大学合成生物学和生物工程讲席教授曾安平和上海科技大学王天民研究员为论文的共同作者。该成果得到国家重点研发计划、国家自然科学基金、佛山-清华创新专项基金和湖北大学生物催化与酶工程国家重点实验室开放课题基金的资助。

论文链接：

https://www.science.org/doi/10.1126/sciadv.adg5296

本文来源：生辉SynBio

责任编辑：焦欣渝杨蕴力

排版设计：任晓静

总监制：胡晓丹

往期推荐