社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
WEB开发
linux   web工具   Redis   Git   zookeeper   DATABASE   bottle   tornado   NGINX   IE   NoSql   MQ   Bootstrap   js   其他Web框架   Jquery   MongoDB   peewee  
机器学习
机器学习算法  
Python88.com
公告   社区推广   反馈  
产品
短视频  
运营
印度
印度  
Python社区  »  机器学习算法

CMU马坚团队用机器学习算法呈现基因组折叠过程,登顶Nature!

AI科技评论 • 2 周前 • 17 次点击  

作者 | 陈彩娴
近日,就读于世界计算机专业顶级院校卡内基梅隆大学(CMU)的 1 名中国博士生开发了一个机器学习算法 Higashi,可以诠释人体细胞核中基因组的折叠方式、以及这些折叠如何影响基因的表达,研究登上了《Nature Biotechnology》!
通过对蛋白质与DNA束的折叠与排序了解,专家可以了解哪些基因得到表达、哪些基因又遭到了抑制,从而判断人体的健康状况。但此前,科学家对这个过程并不了解。
而 1 名 CMU 在读的中国博士生,用一种基于超图表示学习(hypergraph representation learning)的算法破解了这一谜题!超图表示学习是一种机器学习方法,原先主要用在 app 音乐推荐或 3D 物体识别。
这名博士生的名字为张若弛,本科毕业于清华大学,目前就读于 CMU 的计算生物学系(CBD),追求“幽默科研”,在这次研究中还将算法命名为“Higashi”(一种日本甜食)。Ruochi Zhang的博士导师为 CMU 知名华人学者马坚,另一位合作者也是中国学生,叫 Tianming Zhou(本科毕业于清华大学)。
该研究项目由美国国立卫生研究院(NIH)资助。2020年,马坚获得 NIH 的 1000 万美元科研资助,在 CMU 成立一个多研究中心,旨在了解细胞核的 3D 结构、及其结构的变化如何影响细胞在健康与疾病中的功能。

图注:从左到右,Ruochi Zhang、Tianming Zhou与马坚



1

Higashi 算法如何工作?

染色体由称为“染色质”的DNA-RNA-蛋白质复合物组成。该复合物会折叠并自行排列来适应细胞核。在这个过程中,每一种成分的功能元素都会更紧密地结合在一起,从而影响了基因的表达方式,激活或抑制特定的遗传特征。
基因组组织的可变性对基因表达与细胞状态的影响很大。
Higashi 算法与新兴技术(单细胞 Hi-C)配合使用,可以创建单细胞中染色质相互作用的快照。Higashi 对复杂组织和生物过程中单个细胞的染色质组织进行了更详细的分析,同时深究了染色质的相互作用如何因细胞而异。这些分析使科学家能够看到细胞与细胞之间染色质折叠和组织的详细变化——包括那些可能很微妙但对健康有影响的变化。
Higashi 的关键算法设计是将 scHi-C 数据转换为超图(如图 1a)。在转换的过程中,超图会保留来自 scHi-C 接触图的单细胞分辨率和 3D 基因组特征。
据 CMU News 报道,Higashi算法是第一项在超图上使用复杂神经网络来对单细胞基因组组织进行高清分析的技术。普通的图只是将两个顶点连接到一个交叉点(即“边”,edge),而超图是将多个顶点连接到边。
详细来说,嵌入 scHi-C 数据的过程就相当于学习超图的节点嵌入,而输入 scHi-C 接触图就变成了预测超图中缺失的超边。
在 Higashi 中,他们使用了最新开发的 Hyper-SAGNN 架构。这是一个通用的超图表示学习框架,专门针对 scHi-C 分析进行了大量的新开发。
图 1:用于 scHi-C 分析的 Higashi 框架
Higashi 有 5 个主要组成部分:
1)他们将 scHi-C 数据集表示为超图,其中,每个细胞和每个基因组 bin 分别表示为细胞节点和基因组 bin 节点。单细胞接触图中的每个非零条目都被建模为连接相应细胞和该特定染色质相互作用的两个基因组位点的超边(图 1a)。这种形式集合了 scHi-C 的嵌入和数据插补。
2)他们基于构建的超图训练超图神经网络 (NN)。
3)将训练好的超图神经网络中提取单元节点的嵌入向量用于下游分析。
4)使用经过训练的超图 NN 来插补单细胞 Hi-C 接触图,并结合细胞之间的潜在相关性来增强整体插补,从而更详细地表征 3D 基因组特征。
5)通过几种新的计算策略,比较了跨单个细胞的 A/B 区室分数和 TAD 样域边界,以促进对这些大规模 3D 基因组特征的细胞间变异性及其对基因转录的影响的分析。



2

识别 3D 基因组结构
团队试图用 Higashi 估算的接触图来识别细胞类型特定的 3D 基因组结构。
单细胞 Hi-C (scHi-C) 方法可以识别 3D 染色质组织的细胞间变异性,但分析已测量的染色质互动的稀疏性具有一定挑战。马坚团队所提出的 Higashi 算法可以结合单个细胞之间的潜在相关性,增强接触图的整体插补。
他们的分析表明,基于 Higashi 推算接触图计算的单细胞绝缘分数具有分离复杂细胞类型的能力,而基于原始接触图的单细胞绝缘评分不能有效区分细胞类型。
图 2:Higashi 能够以单细胞分辨率详细描述 3D 基因组特征及其与基因转录的联系。
Higashi 可以识别单个细胞中的多尺度 3D 基因组特征,从而精确地描绘细胞间的变异性。在关于人类前额叶皮层的 scHi-C 数据集中,Higashi 可以确定 3D 基因组特征与细胞类型特异性基因调控之间的联系。
他们还发现 SULF1 是区分 L6 亚型与其余兴奋性神经元亚型(L2/3、L4 和 L5)的标记基因,与周围细胞类型特异性 TAD 样域边界具有很强的相关性。TAD 样域边界存在于 93.2% 的 L6 细胞中,但其余的兴奋性神经元亚型中仅有 65.3%。这些结果为人类前额叶皮层细胞类型的标记基因调控以及 3D 基因组结构和功能之间的联系提供了新的见解。
图 3:Higashi 使用来自人类前额叶皮层的 scHi-C 数据识别复杂的细胞类型和细胞类型特异性 TAD 样域边界。
最后,他们希望知道 Higashi 确定的细胞类型特异性 TAD 样域边界附近的基因是否具有不同的功能作用。结果证明,Higashi 在使用 scHi-C 数据有效识别复杂组织中的细胞类型和细胞类型特异性 3D 基因组特征方面具有独特优势。
这个分析表明,Higashi 在揭示细胞类型特异性 TAD 样域边界方面有强大潜力,极大地促进了 3D 基因组结构在调节细胞类型特异性基因功能中的作用分析。
此外,据 Nature 报道,Higashi 算法还可以用于分析单细胞多路染色质相互作用与其他多模式单细胞组学数据。



3

总结
马坚团队开发的机器学习算法 Higashi 在嵌入与插补方面有极大优势。
通过 scHi-C 接触图的数据增强改进,他们在 Higashi 算法中开发了能系统分析可变多尺度 3D 基因组特征(A/B 区室分数和 TAD 样域边界)的方法,并证明了这些特征对基因转录的影响。
通过应用来自人类前额叶皮层的 scHi-C 数据集,Higashi 能够识别复杂的细胞类型,并揭示与细胞类型特异性基因调控有密切联系的细胞类型特异性 TAD 样域边界。
Higashi 的关键算法创新是将 scHi-C 数据转化为超图,与现有方法相比具有独特的优势:
首先,这种转换保留了 scHi-C 的单细胞精度和 3D 基因组特征。
其次,将整个 scHi-C 数据集建模为超图,而不是将每个接触图建模为单独的图,允许跨细胞协调信息,通过利用细胞之间的潜在相关性来改善嵌入和插补。
最后,虽然他们主要关注 scHi-C 数据,但 Higashi 中的超图表示高度可以推广到其他单细胞数据类型。
不过,他们指出,作为一种数据驱动算法,Higashi 也有不少需要改进的地方。比如,它至少需要一个中等大小的 scHi-C 数据集来实现高性能。此外,由于单细胞 3D 基因组结构性质的高度多样化,Higashi在远程交互的估算方面仍有很大的改进空间。
但他们也谈到,为了在单细胞分辨率下更全面地描绘 3D 基因组组织,Higashi 可以扩展到分析高阶染色质结构的单细胞分析——例如,最近开发的 scSPRITE34 探测多路染色质相互作用。

参考链接:

1.https://www.cs.cmu.edu/news/2021/higashi-algorithm
2.https://www.nature.com/articles/s41587-021-01034-y
3.https://www.cmu.edu/news/stories/archives/2020/october/new-center-cell-nucleus.html

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号 ,以及常点文末右下角的“在看”。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121239
 
17 次点击  
分享到微博