通过UUATAC-seq和深度学习(NvwaCE)构建脊椎动物调控元件图谱 || Cell

2025 年 7月 8 日， Guo Lab（团队详情在文末）在《Cell || Resource》上见刊了一篇题为“Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning”的研究论文，其中指出谱脊椎动物基因组中的调控序列仍未被完全解析。为解决这一问题，作者开发了一种超高通量、超高灵敏度的单核转座酶可及性染色质测序（UUATAC-seq）技术，能够在一天内构建一个物种的染色质可及性图谱。利用UUATAC-seq，作者在五个代表性脊椎动物物种中绘制了候选顺式调控元件（cCREs）的分布。分析结果显示，不同物种间的基因组大小差异会影响cCRE的数量，但不影响其长度。作者进一步提出了Nvwa顺式调控元件模型（NvwaCE），这是一种多任务深度学习模型，用于解析顺式调控语法，并能够直接从基因组序列中高精度预测cCRE图谱。NvwaCE表明，调控语法在进化上比核苷酸序列更为保守，并且这种语法将cCRE组织成不同的功能模块。此外，NvwaCE还能准确预测合成突变对谱系特异性cCRE功能的影响，并与因果数量性状位点（QTLs）以及基因编辑结果一致。综上所述，作者的研究为解读脊椎动物调控语言提供了宝贵的资源（文章较长（可到总结-概述-分析方法最后部分）文章数据分析复现代码实例在文末）。

注：本文涉及的公式及函数可以直接复制公式到LaTeX编辑器查看具体公式，我这边推荐：(https://arachnoid.com/latex/或 https://www.quicklatex.com/)🤓🤓

有兴趣的读者也可阅读：

Spotiphy：一种实现单细胞分辨率与全基因组覆盖的空间转录组学新工具 || Nature Methods

提高Xenium In Situ数据的实用性：通过质量评估和最佳实践分析流程 || Nature Methods

定义和基准测试单细胞分析中的开放问题 || Nature Biotechnology

TensionMap：空间机械（机械力，如细胞压力或张力）转录组学（基因表达）的计算框架 || Nature Methods

SpaceFlow-DC：空间聚类方法在空间转录组学数据中的基准测试 || Nature Methods

CHOIR：一种通过显著性分析识别细胞类型和状态的聚类分析工具（单细胞及空间多组学） || Nature Genetics

解析细胞身份与组织结构：单细胞与空间转录组学的应用 || NatureReviews MolecularCell Biology

scICE：通过多聚类标签一致性评估提高单细胞测序数据聚类的可靠性与计算效率 || Nature Communications

定义和基准测试单细胞分析中的开放问题 || Nature Biotechnology

简介

多细胞生物中不同类型的细胞拥有相同的基因组，但由于基因表达的差异性调控，它们表现出高度特化的功能特征。调控序列通过以细胞类型特异性的方式招募序列特异性的转录因子（TFs），从而决定基因表达模式。染色质可及性是调控DNA的一个通用标志，可以通过DNase I超敏感位点测序（DNase-seq）和利用测序技术进行转座酶可及性染色质分析（ATAC-seq）来测量。已有多个大规模研究利用这些技术在哺乳动物中绘制了全基因组范围内的调控序列图谱。然而，对于大多数物种而言，仍缺乏针对不同细胞类型的系统性调控序列图谱。

单细胞技术的发展极大地提升了我们在复杂生物系统中研究遗传调控的能力。基于微滴、微孔板或分裂池策略的高通量单细胞测序方法，能够在不依赖于细胞群体选择或标记列表的情况下，实现对大量单细胞的并行分析。这些技术革新为生物学中基因组、转录组和蛋白质组信息的系统性测定设立了新标准。近年来，在构建全 organism 水平的细胞图谱方面取得了显著进展，为细胞谱系分化和遗传调控提供了前所未有的见解。虽然转录组图谱主要关注谱系特异性基因表达，但单细胞染色质可及性图谱则能够捕捉控制每种细胞类型中转录活动的染色质调控景观。然而，当前的细胞图谱技术仍存在多种局限：难以平衡通量与灵敏度、DNA片段或转录本的丢失，以及数据整合时面临的批次效应问题。

直接从DNA序列预测调控信号和表达信号的深度学习模型的应用，是现代基因组学领域的重要里程碑。最近，已有深度学习模型被用于在单细胞水平上预测染色质可及性和基因表达。例如，Nvwa可在单细胞分辨率下实现对细胞类型特异性基因表达的大规模预测，而Huatuo则能在几乎所有细胞类型中以单核苷酸水平解码与疾病相关的调控序列。遗憾的是，目前大多数细胞图谱数据在灵敏度或通量方面仍存在一定限制，阻碍了高精度预测模型的构建。尽管蛋白质结构预测模型已在多个领域取得巨大成功，但在基因组学领域，优化深度学习模型仍然是一个持续挑战。

在本研究中，作者通过使用同源接头转座酶技术和温度控制的接头转换策略，显著提高了ATAC检测的灵敏度和通量。作者提出了一种超高通量、超高灵敏度的单核ATAC-seq（UUATAC-seq）方案，用于绘制斑马鱼、墨西哥钝口螈、壁虎、鸡和小鼠等五种代表性脊椎动物物种的高分辨率染色质图谱，其基因组大小覆盖了整个脊椎动物亚门的范围。该数据资源使作者能够探索不同物种和谱系之间脊椎动物候选顺式调控元件（cCREs）的共性规律。最终，作者构建了一个多任务深度学习模型——Nvwa顺式调控元件模型（NvwaCE），它可以直接从任意给定的脊椎动物基因组序列出发，准确预测染色质可及性图谱、推断进化影响，并评估合成突变的影响。

结果概况

UUATAC-seq平台的构建

为了开发适合高分辨率景观构建的单细胞测序平台，作者建立了UUATAC-seq技术。在UUATAC-seq方案中，作者使用同源接头转座酶将第一轮条形码整合到开放基因组区域（图1A）。经过混合和分选后，通过杂交和连接添加第二轮条形码，然后再次进行混合和分选。接下来，作者使用温度控制的接头转换添加第三轮条形码（图1A和1B）。随后，作者利用gapfill和连接修复模板，然后通过PCR加入第四轮条形码并生成测序文库。所使用的全部接头序列总结于表S1中。该方案避免了不同索引程序间的交叉污染，并通过减少试剂清除步骤防止潜在样本丢失。与目前使用的其他单核ATAC-seq（snATAC-seq）协议相比，包括s3-ATAC、sci-ATAC-seq3和10× ATAC，UUATAC-seq具有多项优势（图S1A）。首先，UUATAC-seq采用同源接头转座酶，克服了双接头转座酶50%产量限制，允许扩增100%的分子。其次，UUATAC-seq以流线型方式整合了四轮索引步骤，相比s3-ATAC，其处理时间更短且通量更高。最后，UUATAC-seq易于操作，不需要昂贵设备如荧光激活细胞排序（FACS）或10× Genomics平台，适用于大多数实验室。

图1 UUATAC-seq（A）标准UUATAC-seq文库构建的示意图。注意BC3与其反向链不互补。（B）通过温度控制实现索引接头转换的设计方案。（C）在嵌合参考基因组中，唯一比对到小鼠或人类染色体的唯一读段数的单细胞文库散点图。点的颜色表示物种归属。若细胞中人类或小鼠片段比例低于0.8，则被定义为混合细胞。所有标准实验中，裂解孔中收集的细胞核少于1,000个。（D）3T3和293T细胞的片段长度分布呈现出核小体条带特征。（E）典型的TSS富集图，显示在转录起始位点上下游4 kb窗口内标准化的Tn5插入信号。（F）与T4连接酶相比，使用大肠杆菌连接酶可提高独特片段（UF）的检出率，但对TSS富集影响较小（左图）。使用未固定和固定处理的3T3细胞核进行ATAC-seq所捕获的UF的TSS富集得分比较（右图）。（G）在通量、灵敏度及其他实验条件方面，UUATAC-seq与现有snATAC-seq方法的比较。

为了评估捕获片段的碰撞率及其特征，作者用培养的人类（293T）和小鼠（3T3）细胞进行了两次独立的混合实验。尽管理论上的碰撞率很低，但在标准实验中观察到的实验碰撞率为0.3%（图1C），而在高细胞数量实验中则为1.2%（图S1B）。片段大小显示出核小体大小分布带（图1D），插入部分富集在转录起始位点（TSSs）（图1E）。作者在293T细胞中每个细胞核获得了22,642个中位数的独特片段（UFs），而在3T3细胞中每个细胞核获得了26,085个中位数的UF，中位数的TSS富集得分保持在12以上（图S1C）。作者探讨了不同DNA连接酶对文库构建的影响，发现大肠杆菌DNA连接酶提高了UF（图1F）。重要的是，作者发现固定细胞核会降低TSS富集得分并影响ATAC-seq数据质量（图1F）。此外，在55°C下进行转座酶处理产生的UF多于37°C下的处理（表S2）。与其他方法相比，UUATAC-seq在通量、灵敏度和成本方面表现出优势（图1G）。

图S1

UUATAC-seq在组织细胞中的性能评估

为评估UUATAC-seq在组织细胞中的表现，作者使用该技术分析了41,672个成年小鼠脑细胞核，并按照已发表的流程进行数据处理，采用统一流形逼近与投影（UMAP）方法进行可视化（图S2A）。作者利用典型细胞特异性标记基因对细胞类型进行了注释（表S2）。为评估平台的灵敏度和数据增长趋势，作者在六组测序索引中选取其中一个，在不同测序深度下进行测序（图S2B）。峰识别结果显示，所识别的峰数量在不同细胞类型之间存在差异，并且随着细胞数量的增加而持续上升（表S2）。唯一比对片段（UMs）与唯一片段（UF）的比值反映了同一片段被重复检测的次数（图2A）。增加测序深度几乎不影响TSS富集得分（图2B），但显著提升了UF（图2C）、峰内读段比例（FRIP）（图2D）、总峰数和差异可及峰（DA峰）（图2E）。中等测序深度（UM/UF = 1.647）在成本效益上最优，因为大多数片段在此深度即可被有效检测。在小鼠大脑中，大多数峰位于内含子区域，提示内含子可能含有大量调控元件（表S2）。此外，作者通过双链捕获事件的比例（7%）评估整体分子回收效率，估算出总的分子回收率约为25.6%，表明能够实现对全部开放位点的高覆盖率（图S2C）。

图2 使用脑组织样本对UUATAC-seq进行性能评估（A）条形图显示在低、中、高三个测序深度下（“合并”表示将三个层次的读段合并分析），小鼠脑样本中唯一比对片段（UM）与独特片段（UF）的比例。（B–E）TSS富集得分（B）、每个细胞核的独特片段数（C）以及峰区读段比例（FRIP）（D）在四个测序深度水平下的箱型图。随着测序深度增加，这些指标均趋于稳定。（E）从每个snATAC-seq图谱中识别出的总峰数和差异可及峰（DA峰）也呈现类似趋势。成对比较采用Wilcoxon秩和检验确定统计显著性；ns：无显著性差异；****p < 0.0001。（F–I）UUATAC-seq与其他8种当前snATAC-seq方法在以下指标上的比较：每个细胞核的独特片段数（F）、基于3,000个细胞核识别的总峰数（G）、每个细胞核的FRIP值（H）以及基于3,000个细胞核识别的DA峰数（I）。为排除细胞数量的影响，所有方法均随机抽取3,000个细胞核进行比较。（J）将UUATAC-seq小鼠脑数据与其他数据集联合绘制的UMAP图，显示良好的数据兼容性。点的颜色代表不同的细胞类型。（K）条形图显示通过一次实验，UUATAC-seq与其他snATAC-seq方法所获得的每个细胞核累计TSS富集得分 × 独特片段数的比较。（L）比较来自UUATAC-seq（成年小鼠）、sci-ATAC-seq（成年小鼠）、改进版sci-ATAC-seq（成年人大脑）和sci-ATAC-seq3（胎儿人脑）的小鼠和人类染色质可及性图谱数据集中TSS富集得分（上图）和独特片段数量（下图）的比较，该比较在同一组织样本的不同方法之间进行。（M）条形图显示小鼠和人类图谱中scRNA-seq和snATAC-seq数据集的总分子数。其中，snATAC中的分子指独特片段（UF），scRNA中的分子指唯一分子标识符（UMI）。 UMs：唯一比对片段；UFs：独特片段；DA：差异可及。

随后，作者将UUATAC-seq与其他9种现有的snATAC-seq方法在小鼠脑组织中的应用进行了比较，发现UUATAC-seq在所有指标上均优于其他方法（表S2）。作者从不同小鼠脑数据集中抽取相同数量的细胞核，并统一使用标准化流程处理所有数据。结果表明，UUATAC-seq具有最高的UF（图2F）、最多的峰数量（图2G）、最高的FRIP（图2H）、最多的DA峰（图2I）以及最低的双细胞率（表S2）。此外，UUATAC-seq的峰区读段数（图S2D）、启动子区读段数（图S2E）和启动子占比（图S2F）也均为最高。即使在相同测序深度条件下，UUATAC-seq仍表现出最佳的TSS得分和FRIP，以及最高的峰区读段比例，说明其测序读段利用率很高（表S2）。作者观察到FRIP与TSS富集呈正相关，与UF呈负相关，而无论样本质量或片段数量如何，UUATAC-seq始终获得最高的FRIP值（图S2G）。UUATAC-seq采用未固定的细胞核进行染色质可及性分析，从而获得了更高的信号特异性（表S2），并更好地捕捉了转录凝聚体中的cCRE。来自UUATAC-seq数据的转录因子足迹分析与其他方法表现出相似的模式（表S2）。最后，整合所有可用的小鼠脑snATAC数据集后发现，本研究鉴定出的细胞类型与已发表的小鼠脑研究结果一致。UUATAC-seq成功检测出了小鼠大脑中的所有主要细胞类型（图2J；表S2）。

图S2

为评估UUATAC-seq在构建高通量细胞图谱方面的能力，作者仅用一次实验便完成了对一只雄性小鼠各主要组织的检测。作者仅用一天时间构建了超过一百万个带条形码的细胞核文库，并在另一天完成了一半文库的测序。即便测序深度适中，单次实验中仍有584,269个细胞核通过质量过滤。与所有其他方法的单批次数据相比，该实验的数据质量极为优异（表S2）。由单次UUATAC-seq实验所恢复的所有细胞核中，累计UF乘以TSS富集值远高于任何其他现有snATAC-seq方法（图2K）。总体而言，上述结果表明UUATAC-seq在构建大规模细胞图谱方面展现出超高灵敏度、超高通量和超高效率。

脊椎动物染色质可及性图谱的构建

UUATAC-seq展现出的优异性能促使作者绘制不同脊椎动物物种的高分辨率候选顺式调控元件（cCRE）图谱。为了研究基因组大小与调控机制之间的关系，作者选取了基因组大小跨度较大的五个代表性物种，包括斑马鱼、墨西哥钝口螈、壁虎、鸡和小鼠，其基因组大小从1 Gb到32 Gb不等。得益于UUATAC-seq的超高通量，作者能够在一天内完成每个物种的单批次实验，构建其染色质可及性图谱。对于壁虎、鸡以及雌雄小鼠，所有组织均来自同一个体；对于钝口螈，组织来自三个个体；而对于斑马鱼，相同组织则来自八个个体的混合样本。所选组织涵盖多个系统类型。具体采集的组织类型数量分别为：雌鼠23种、雄鼠22种、鸡18种、壁虎19种、钝口螈15种、斑马鱼11种（见表S3）。我们针对不同物种和组织类型优化了细胞核分离方法和缓冲液条件（表S3）。随后使用UUATAC-seq处理细胞核，并通过高通量测序生成数据集。

图3 脊椎动物染色质可及性图谱的构建（A–F）五种脊椎动物多个组织的染色质可及性特征通过UMAP进行可视化展示：哺乳动物中的雌鼠（A）和雄鼠（B）、鸟类中的鸡（C）、爬行类中的壁虎（D）、两栖类中的墨西哥钝口螈（E）以及鱼类中的斑马鱼（F）。每个点代表一个细胞核，颜色表示其来源组织，背景阴影代表细胞谱系归属。层次聚类树展示了各亚群之间的相关性，条形图表示各亚群的细胞数量。

在过滤掉低质量细胞核和潜在双细胞后，作者最终获得了高质量的开放染色质图谱，共包含1,056,752个细胞核，每个细胞核平均独特片段数（UF）为16,317，平均TSS富集得分为18.6（±7.1）（见表S3）。对于哺乳动物而言，作者构建的可及性图谱质量优于已发表的研究结果（图2L）。与现有的单细胞RNA测序（scRNA-seq）或snATAC-seq细胞图谱数据库相比，作者的数据集覆盖了更多分子信号（图2M）。作者采用标准化流程处理大规模snATAC-seq数据，并根据各物种基因组大小进行参数控制，并使用UMAP对结果进行可视化展示（图3A–3F）。对于每个物种，作者首先在聚类分析中识别主要细胞类型，随后进一步解析其谱系内的异质性，划分出亚群。相关结果可通过作者的网站访问：https://bis.zju.edu.cn/uuatac。在雌鼠中，作者鉴定出42个主要聚类和71个亚聚类；在雄鼠中，为39个主要聚类和77个亚聚类；鸡中为32个主要聚类和54个亚聚类；壁虎为30个主要聚类和54个亚聚类；钝口螈为26个主要聚类和50个亚聚类；斑马鱼为32个主要聚类和51个亚聚类。我们基于细胞类型特异性基因的可及性信息对每一个聚类和亚聚类进行了注释和命名（见表S4）。

值得注意的是，这五种脊椎动物共享相同的几大细胞谱系，包括红细胞系、免疫细胞系、肝细胞系、上皮细胞系、分泌细胞系、肌细胞系、神经细胞系、内皮细胞系和基质细胞系（图3A–3F）。被注释为免疫、内皮和基质细胞的聚类来源于多种组织类型；而许多上皮细胞聚类则具有组织特异性。小鼠拥有最丰富的组织驻留免疫细胞类型，而斑马鱼的上皮细胞类型最少（https://bis.zju.edu.cn/uuatac）。作者观察到脊椎动物的基质细胞和内皮细胞亚群之间存在轻微但一致的差异。脂肪细胞在所有脊椎动物中都存在，而与免疫相关的成纤维细胞仅出现在小鼠、鸡和壁虎中。作者还发现了同时具有内皮和肌细胞特征的过渡细胞类型，并揭示了斑马鱼中由内皮直接发育而来的红细胞谱系轨迹（https://bis.zju.edu.cn/uuatac）。此外，作者发现小鼠内皮细胞的多个亚型与一项专注于小鼠内皮细胞的scRNA-seq研究高度吻合，验证了UUATAC-seq在细胞分类上的分辨能力（图S2H和S2I）。与使用sci-ATAC-seq构建的小鼠染色质可及性图谱相比，UUATAC-seq识别出了更丰富的细胞类型（图S2J）。

脊椎动物细胞类型特异性cCRE图谱的构建

为了绘制脊椎动物细胞类型特异性候选顺式调控元件（cCRE）的全景图谱，作者整合了每个物种中属于同一细胞聚类的所有细胞核染色质可及性数据，并应用了一套优化的开放区域定义流程（图4A）。传统的单细胞ATAC-seq分析通常将染色质可及性峰标准化为固定的500 bp区间，这种人为设定的边界限制了对调控元件的准确描述。作者的分析方法避免了这种任意扩展带来的局限性，更真实地反映了调控区域的天然可及模式。作者发现，与传统峰识别方法相比，本研究所定义的开放区域与整体DNase I超敏感位点的相关性显著更高（图4B）。随后，作者将这些开放区域合并，获得了五个物种非重叠的cCRE集合（表S5）。在小鼠中，作者鉴定出的cCRE中有56.32%已被ENCODE联盟注释，但仍有43.68%是此前未被注释的新调控元件（图4C）。这些新发现的cCRE在GC含量和转座子（TE）可及比例方面与已知cCRE相似（图S3A–S3E）。

图S2

进一步分析表明，这些新元件来源于一些重要但罕见的细胞类型，而这些类型在ENCODE联盟的研究中并未覆盖，例如肾上腺皮质细胞、肾上腺髓质嗜铬细胞，以及垂体中的泌乳细胞（lactotrope）和生长激素分泌细胞（somatotrope）（图S3F）。为了利用多组学数据验证这些新的cCRE，作者使用H3K4me1、H3K4me3和CTCF抗体对小鼠肾上腺和垂体组织进行了CUT&Tag实验。结果显示，在这两个组织中，有60%至70%的新cCRE至少能被这三个标记之一所支持（图S3G和S3H）。在鸡、壁虎、墨西哥钝口螈和斑马鱼中，几乎所有作者定义的细胞类型特异性cCRE都是首次报道。总体而言，作者共高分辨率鉴定了6,182,084个脊椎动物cCRE（图4D；表S5）。基于这一脊椎动物cCRE图谱，作者进一步探索了调控序列在不同物种间的分布规律。尽管各物种中位于启动子、UTR、外显子、内含子以及远端基因间区的开放区域比例存在差异（图4E），但作者发现一个物种的总开放区域数量与其基因组大小呈正相关（图4F，S3I和S3J）。作者据此预测了其他物种中cCRE的数量，估计人类和猴的cCRE数量在30万到40万之间，蚯蚓则在20万到30万之间。近期关于人类（300,454个cCRE）、猴（310,374个）和蚯蚓（278,467个）的研究结果验证了作者的预测。

图4 脊椎动物基因组中的开放区域模式（A）基于模型分析过滤片段来识别开放区域的示意图。（B）热图展示了四种免疫细胞类型中，本研究定义的开放区域信号、传统峰信号以及从ENCODE下载的DNase-seq信号之间的Spearman相关性。颜色尺度代表Spearman相关系数，范围从0.0到1.0。（C）饼图显示了本研究中新定义的cCRE所占百分比（红色）和与ENCODE小鼠cCRE重叠的cCRE所占百分比（灰色）。（D）条形图展示了五个物种在谱系水平和整体水平上的cCRE数量。（E）脊椎动物物种的系统发育树，并引入非脊椎动物作为参考。饼图展示了五个物种中不同元件类别注释的开放区域比例。（F–H）散点图分别展示了五个物种中开放区域数量与基因组大小（F）、基因数量（G）以及细胞类型数量（H）之间的Pearson相关性。虚线表示线性回归拟合，灰色阴影区域表示95%置信区间。图中给出了Pearson相关系数（R）及其对应的p值。（I）条形图显示五个物种中转座子（TE）覆盖约占整个基因组的12%至50%（上部），而可及TE覆盖约占整个基因组的2%至5%（下部）。（J）Cicero共可及性分析显示了小鼠Gata2基因座（chr6: 87,991,210-88,504,803）和钝口螈GATA2基因座（chr2q1: 99,501,195-100,260,484）侧翼窗口的共可及性。仅展示来自小鼠和钝口螈肝细胞且共可及性大于0.25（虚线所示）的连接。（K）山脊图显示了九种元件类别中开放区域大小的分布情况。启动子（≤1 kb）内的开放区域包含一批宽广区域和狭窄区域，其他元件类别亦是如此。

尽管如此，作者还发现cCRE数量与基因数量或细胞类型数量之间并无明显相关性（图4G和4H）。虽然不同基因组中转座子（TE）的比例变化较大（12%至50%），但在这些TE序列中开放区域的比例始终较低（2%至5%），这表明转座子在成体细胞谱系基因调控中的作用可能有限（图4I；表S5）。接着，作者使用Cicero工具可视化不同物种中开放区域之间的连接关系。结果显示，基因组越大，开放染色质区域之间的相互联系越多（图S4A）。例如，在Gata2位点，钝口螈的调控互作数量约为小鼠的10倍（图4J）。通过超高分辨率显微镜观察钝口螈和小鼠单核细胞核，作者也发现钝口螈的开放和关闭染色质区域面积均显著大于小鼠（图S4B）。然而，平行进行的scRNA-seq和snATAC-seq分析表明，钝口螈与小鼠在基因丰度、转录丰度以及多组学调控模块方面保持高度一致（图S4C）。

图S4

尽管不同物种中开放区域的数量存在显著差异，但作者发现个体开放区域的长度在脊椎动物中是保守的，大多数开放区域的长度集中在约250 bp左右。在距离转录起始位点（TSS）1 kb范围内的区域，作者观察到两种cCRE模式：一种长度约为250 bp，另一种约为900 bp，并且这一现象在所有研究的脊椎动物中均存在。其中，约900 bp的开放区域位于不同基因的TSS位置（图4K和图S4D）。为进一步探究这两类cCRE的功能单位，作者分析了其调控基序特征。基序富集分析显示，较宽的开放区域富含与核心转录程序相关的持家型基序，如SP1和NRF1；而位于启动子区的约250 bp开放区域则富集了CTCF和谱系相关基序（表S5）。此外，在1 kb范围内的约250 bp开放区域，无论是在长度分布还是基序富集方面，都与远端开放区域表现出相似特征（表S5）。结合小鼠开放区域数据、ENCODE数据以及作者自己的CUT&Tag实验结果，发现约900 bp的开放区域标记有H3K4me3修饰，而约250 bp的开放区域则标记有H3K4me1修饰（图S4E–S4G）。由此推断，脊椎动物中主要存在两类开放区域：位于TSS附近的约900 bp区域应对应经典启动子，而约250 bp区域则对应传统意义上的增强子/抑制子。作者的结果也与利用基因组编辑实验对cCRE进行功能注释的结果一致。

受个体cCRE模式高度相似的启发，作者进一步探索了脊椎动物中调控基序的保守性。针对每个谱系，作者使用HOMER工具从头预测了TF结合位点的模式，随后通过tomtom算法量化五个物种在各谱系中的基序相似性。结果显示，脊椎动物在核心转录因子（如CTCF、ETS及同源盒超家族）的使用上具有普遍一致的模式（表S5）。作者还对每个物种中不同谱系间的差异峰进行了分析，并使用CIS-BP小鼠数据库（版本2）进行基序富集分析。结果表明，谱系特异性基序在编码谱系特异性的能力上也表现出跨物种的保守性（表S5）。

接下来，作者研究了非保守cCRE在调控物种特异性表型中的潜在作用。作者将每个物种的cCRE基因组坐标通过liftOver工具转换到mm10小鼠参考基因组上。结果发现，存在大量无法比对到小鼠基因组的 vertebrate 元件（称为未比对元件，UA）。鸡、壁虎、墨西哥钝口螈和斑马鱼中分别有158,496、323,474、4,983,841和275,681个UA元件（见表S5）。作者计算了这四个物种中每种细胞类型标记峰区中UA元件的频率。结果显示，上皮细胞和神经细胞中含有的UA元件显著多于免疫细胞（见表S5）。此外，作者在一些物种特异性细胞类型和组织中也观察到了UA元件的富集，例如斑马鱼的鳃上皮细胞和 swim bladder 上皮细胞（见表S5），这些元件可能参与血管发育、细胞增殖和再生等过程（见表S5）。

为了进一步从多组学角度研究物种特异性的调控机制，作者整合分析了转录组与染色质可及性数据。小鼠的scRNA-seq数据来自小鼠细胞图谱（Mouse Cell Atlas，MCA），而钝口螈的scRNA-seq数据则由本研究通过Microwell-seq技术生成。通过在scRNA-seq与UUATAC-seq数据之间进行细胞类型标签映射分析，作者确认了小鼠与钝口螈之间的对应细胞类型（见表S5）。基于匹配的细胞类型，作者进行了SCENIC+分析，识别出小鼠和钝口螈中细胞谱系特异性的增强子驱动调控模块（eRegulons）及其关键调控元件（见表S5）。对于每一个eRegulon，其靶基因和靶区域表现出一致的调控功能，并具有相应的谱系特异性。值得注意的是，在对应谱系中，直系同源转录因子的eRegulon特异性评分（eRSS）显示出高度相关性（见表S5）。特别地，作者在钝口螈的基质细胞和内皮细胞中观察到干细胞相关标志物Mycn异常活跃，这可能有助于解释其强大的再生能力。为进一步解析钝口螈组织再生的分子基础，作者探索了物种特异性cCRE。跨物种调控元件分析揭示了一个钝口螈特异的调控程序（图S4H）。对该程序的功能通路分析提示其可能参与TOR信号通路的调控（见表S5）。事实上，在五个物种中，钝口螈基质细胞中MTOR和PIK3CA位点的可及性水平最高（图S4I）。这些结果进一步支持了近期的一项发现：mTOR通路的快速激活是钝口螈肢体再生的一个独特特征。

NvwaCE模型在单细胞水平和图谱尺度上的构建

为了探索多种脊椎动物cCRE中的调控“语法”，作者采用深度学习策略，构建了一个能够从DNA序列预测其在不同物种中染色质可及性的预测模型。作者在多任务深度学习网络中引入了ResNeXt结构，改进了snATAC信号的预测性能，建立了NvwaCE建模流程（图5A）。作者优化了模型的层数、峰长度以及训练数据集中TSS质量等关键参数，以提升snATAC-seq预测效果（图5B–5D）。结果显示，NvwaCE在单细胞核染色质可及性图谱预测方面优于其他现有架构，包括scBasset和Transformer模型（图5E）。作者发现数据质量对模型性能具有重要影响：使用完全相同的建模流程，基于本研究小鼠图谱数据训练的模型在所有细胞谱系中的预测准确率显著高于基于以往发表的小鼠图谱数据训练的模型（图5F）。

图5 NvwaCE模型在单细胞水平和图谱尺度上的构建（A）NvwaCE分析流程示意图。NvwaCE是一种深度卷积神经网络，能够基于基因组DNA序列预测单细胞染色质可及性图谱。（B）基于ResNeXt架构主干、使用不同层数的模型性能比较（以AUROC为评价指标）。所有模型均使用来自雌鼠5,034个细胞核的染色质可及性数据集进行训练，后续（C）–（E）中的基准测试也均采用相同数据集。（C）输入峰长度不同的模型性能比较（以AUROC为评价指标）。（D）使用不同质量数据集训练的模型性能比较（以AUROC为评价指标）。（E）NvwaCE、scBasset和Transformer三种模型在snATAC-seq数据集上的性能比较（以AUROC为评价指标）。结果显示NvwaCE具有最高的预测准确性。（F）在保持NvwaCE架构一致的前提下，比较使用本研究小鼠UUATAC-seq图谱数据与以往发表的sci-ATAC小鼠图谱数据训练所得模型的预测准确性。（G）和（H）分别为在单细胞任务（G）和伪批量任务（H）中，NvwaCE在主要细胞谱系中对保留峰的预测性能（以AUROC为评价指标），涵盖雌鼠、雄鼠、壁虎、鸡、墨西哥钝口螈和斑马鱼六个物种。所用细胞核数量分别为：雌鼠50,040个，雄鼠50,035个，鸡50,029个，壁虎50,029个，钝口螈50,025个，斑马鱼50,027个。（I）NvwaCE通过全连接层权重学习得到的五个物种（雌鼠、雄鼠、鸡、壁虎、钝口螈和斑马鱼）细胞嵌入的t-SNE可视化结果，并按照细胞谱系进行着色。

最终的NvwaCE模型以500 bp的DNA序列为输入，首先经过一个包含128个7 bp滤波器的卷积模块，接着进入由4个残差层、1个瓶颈层组成的ResNeXt模块，最后通过一个全连接层，以多任务方式预测每个细胞核的染色质可及性。为覆盖脊椎动物亚门的多样性，作者利用高质量的snATAC-seq数据训练了一个并行版本的NvwaCE模型，涵盖雌雄小鼠、鸡、壁虎、墨西哥钝口螈和斑马鱼等多个代表性物种。所有代码和训练日志均可在GitHub获取：https://github.com/ehcilc23/UUATAC。作者发现，NvwaCE能够稳健地预测染色质可及性图谱，在整个脊椎动物单细胞核水平上，受试者工作特征曲线下面积（AUROC）超过0.80（图5F）。当使用10个细胞的伪批量数据时，NvwaCE在小鼠图谱预测中的AUROC达到0.93（图5H），远优于现有的其他伪批量snATAC-seq模型。

作者进一步利用t分布随机邻域嵌入（t-SNE）对模型最后一层全连接层提取的细胞嵌入进行可视化，展示了细胞聚类及其谱系归属在嵌入空间中的分布情况（图5I）。有趣的是，模型在预测少量细胞核子集时表现出极高的准确性（见表S6）。以红细胞谱系为例，NvwaCE在雌鼠中的AUROC达到0.95，在雄鼠中为0.94，在鸡中为0.99，在壁虎中为0.98。在单细胞核水平评估模型表现时，作者发现AUROC与TSS富集得分呈正相关，进一步说明数据质量对模型训练的重要性。为了验证预测结果的细胞聚类特异性，作者使用相同的峰集合计算了预测与实际染色质可及性之间的调整互信息（AMI）评分（见表S6）。总体评估表明，NvwaCE能够直接从DNA序列出发，在单细胞核水平和图谱尺度上准确预测细胞谱系相关的染色质可及性模式。

图S5

NvwaCE揭示脊椎动物cCRE中的保守调控规律

基于本研究揭示的脊椎动物cCRE基序的保守性，作者进一步测试了NvwaCE模型是否能够用于预测其他脊椎动物基因组中的染色质可及性图谱。作为原理验证，作者将训练于小鼠数据的NvwaCE模型应用于其他脊椎动物基因组扫描，以500 bp为滑动窗口进行预测。结果表明，即使在非保守区域中，小鼠模型仍能正确预测约80%的斑马鱼、钝口螈、壁虎和鸡的cCRE（图6A–6D）。使用壁虎或斑马鱼模型进行跨物种扫描也显示出对非保守区域cCRE的高预测准确率（表S6）。这些结果说明，作者的模型捕捉到了超越序列相似性的更深层调控逻辑。为进一步实现哺乳动物间的从头预测，作者使用小鼠训练的NvwaCE模型对七种哺乳动物（包括人、猕猴、牛、猪、马、羊和大熊猫）的全基因组进行扫描，预测其cCRE图谱（图6E；表S6）。值得注意的是，这七个物种的基因组序列在此前从未被NvwaCE模型“学习”过。该模型成功预测了所有七个物种的谱系特异性染色质可及性图谱（https://bis.zju.edu.cn/uuatac）。从预测图谱数据中调用的峰与实际实验数据在基因组坐标上表现出高度重合（表S6）。例如，人类snATAC-seq预测数据的TSS富集得分和唯一比对分数（UFs）均高于已发表的实验数据（表S6），并且在多个已有研究较多的细胞类型中，预测的可及性水平与实验结果高度相关（图6F）。

图6 基于基因组序列预测染色质可及性图谱（A 和 B）条形图显示在雄鼠（A）和雌鼠（B）内皮细胞中，由小鼠模型预测的四个物种中被判定为可及的UA元件（无法比对或非保守元件）所占比例。（C 和 D）条形图显示在雄鼠（C）和雌鼠（D）红细胞中，由小鼠模型预测的四个物种中被判定为可及的UA元件所占比例。此处UA指无法比对或非保守的调控元件。（E）左侧为通过t-SNE可视化展示的人类和猕猴模型预测结果中的细胞聚类关系；右侧分别展示了四种细胞谱系（上皮细胞、内皮细胞、免疫细胞和红细胞）的投影分布。（F）散点图显示在内皮细胞、巨噬细胞和平滑肌细胞中，NvwaCE模型预测的全基因组染色质可及性与人类scATAC-seq数据在细胞类型水平上的Pearson相关性。颜色尺度表示密度水平。（G）条形图显示新发现cCRE和已知cCRE的碱基数比较。（H）条形图显示与新发现cCRE和已知cCRE显著相关的富集细胞类型。

值得注意的是，在NvwaCE预测的人类cCRE中，有44.89%是ENCODE联盟尚未注释的新调控元件（图6G）。其中大多数新元件来源于ENCODE未覆盖的腺体细胞类型（图6H）。此外，作者的模型还能识别一些传统方法可能遗漏的调控区域，例如由于串联重复导致比对困难的tRNA区域（图S5A）。上述结果不仅体现了NvwaCE强大的预测能力，也揭示了当前实验技术在覆盖性和分辨率方面的局限性。为了探索NvwaCE模型所识别的DNA序列模式，作者利用TF-MoDISco算法从各物种的重要性评分中提取深度学习识别的基序，并构建系统发育树以展示不同物种之间的基序模式关系（表S6）。进一步绘制跨物种系统发育树，展示了基序之间的相似性（图S5B）。这些基于深度学习的基序可以对应到已知的转录因子结合基序（图S5C），但也发现了一大批长度较短且非典型的基序，包括近期研究报道的3-4 bp元件。当作者使用NvwaCE模型分别扫描约900 bp和约250 bp的开放区域时，发现前者在1,000 bp窗口内的信号累积强度是后者的5倍。这一发现不仅证实了模型在区分不同类型cCRE方面的能力，也支持了一个观点：启动子和增强子共享类似的调控结构，主要由局部序列特征定义。为了揭示脊椎动物调控演化在功能层面的影响，作者在人类、猕猴和小鼠的同源基因附近区域同时展示了预测和实际观察到的染色质可及性信号。尽管这三个物种的基因结构和可及性水平存在差异，模型预测表现依然优异（图S6A）。在功能层面评估调控演化时，作者选取了一个具有临床意义的蛋白——胎儿血红蛋白（HbF）作为对象，分析其在红细胞谱系中的跨物种cCRE情况。NvwaCE预测显示，在成年红细胞谱系中，钝口螈HbF基因上游的cCRE比人类或小鼠更具可及性（图S6B）。这一预测得到了HbF启动子可及性实验测量和基因表达数据的良好验证（图S6C和S6D）。

图S6

NvwaCE的应用

由于NvwaCE是一个整合性的深度学习模型，能够解释从基因组序列到细胞图谱的多任务调控轨迹，作者进一步提取其对基因组序列的高维解读，以理解谱系特异性染色质可及性的成因。在模型的最后一层，NvwaCE能够识别基因组序列窗口中的高维特征，并通过无监督聚类将其清晰地划分为不同的序列模块（图S7A）。这些序列模块对应了不同的生物学功能，例如模块1与神经功能相关，模块2与RNA加工相关，模块3与免疫功能相关，模块4则与脂质功能相关（图S7B）。作者的结果表明，NvwaCE已经“学习”到了基因组中与谱系特异性相关的调控“语法”，这种序列“语法”可能是导致染色质可及性谱系特异性的根本原因。NvwaCE应能够在完全变化的序列空间中预测cCRE的功能。因此，作者测试了它在跨物种识别与人类疾病相关的非编码风险变异方面的能力。我们基于Zhang等人筛选出的361个精细定位的变异位点，利用NvwaCE预测每个变异在其周围500 bp区域内的突变效应。结果显示，在设定影响值绝对值>0.1为阈值的情况下，其中有265个变异得到了模型验证（表S7）。在最具影响的变异中，作者观察到相比于邻近区域的随机突变，这些变异表现出强烈的谱系特异性突变效应（图7A）。

图S7

例如，作者发现rs2068888（chr10:93079885:G>A）突变会导致人类肝细胞中CYP26A1基因上调，从而引起胆固醇水平升高；而rs34038797（chr12:630843:C>G）突变则会引发人类免疫细胞中NINJ2基因下调，导致淋巴细胞计数下降（图7A）。随后，作者选取了一些已被经典综述总结的因果性非编码数量性状位点（QTLs），并发现NvwaCE能够准确预测这些功能性位点的突变效应。例如，模型预测−175 T>C和−202 C>G变异会激活红细胞谱系中血红蛋白γ亚基（HBG）的表达，−86 C>A和−90 C>T变异则会抑制红细胞谱系中血红蛋白β亚基（HBB）的表达，而−20 T>A和−6 G>C变异会抑制肝细胞中凝血因子IX（F9）的表达（图7B）。这些结果表明，NvwaCE在预测非编码疾病变异的功能相关性方面具有强大能力。

图7. NvwaCE的预测与验证。（A）点图显示了跨所有谱系中，NvwaCE对最有效变异位点（Zhang 等人）及其附近区域随机突变的预测突变效应，颜色根据谱系标注。（B）点图显示了位于HBG、HBB和F9启动子区内的因果性非编码QTL及其附近区域随机突变的预测突变效应。

NvwaCE预测合成突变效应的能力

接下来，作者测试了NvwaCE模型预测合成突变效应的能力。作者使用Buenrostro等人的人类CD34+多能造血祖细胞（MPPs）染色质图谱对NvwaCE进行微调，并进行了in silico突变分析（ISM）。通过对HBG1/2上游500 bp序列中每个碱基的平均ISM评分可视化，并结合FIMO扫描，作者发现了多个对cCRE具有抑制作用的调控基序（图S7C）。作者计算了每个突变相对于参考序列在模型输出上的差异，并与从人类CD34+细胞碱基编辑筛选实验获得的“金标准”数据进行了比较。结果显示，NvwaCE预测的每个合成突变的影响与腺嘌呤碱基编辑器（ABE）实验结果之间相关系数达到0.95，模型预测准确率（ACC）为1（图7C）。

图7. NvwaCE的预测与验证。（C）NvwaCE（微调后）模型预测的每个可进行腺嘌呤碱基编辑（ABE）的碱基影响，与在人类CD34+细胞中通过ABE碱基编辑筛选实验测得的HBG1/2线性模型Z分数之间的相关性。实线表示线性回归拟合曲线，灰色阴影区域代表95%置信区间。图左侧展示了皮尔逊相关系数（R）及对应的p值。右侧比较了基于NvwaCE微调预测结果的高分位与低分位所对应的实验测得的ABE对HBG1/HBG2表达的影响，* 表示t检验下p < 0.05。（D）野生型与HBG -68 A>G编辑型（编辑效率为23.75%）Hudep2细胞培养中，HBG1/2基因表达水平（以HPRT1为参照进行归一化）。误差棒表示三次重复实验的标准差。

NvwaCE排名前25%的突变在HBG1/2表达水平上表现出显著差异（图7C）。在这些高影响突变中，−83 T>C突变可能导致CCAAT基序破坏，而原始T碱基在该位点对cCRE具有促进作用。NvwaCE预测−175 T>C是缓解镰状细胞贫血症最有效的ABE位点之一（表S7），这一预测已在人类原代细胞的碱基编辑实验中得到验证。−175 T>C突变可能引入TAL1基序，而原始T在此位点对cCRE具有抑制作用（图S7C）。然而，基于大规模并行报告子实验（MPRA）或ENCODE多组学数据（如ChromBPNet）的近期模型，在预测人类基因组中功能突变效应方面表现较差（图S7D）。

预测新型治疗性突变的应用

最后，作者尝试利用NvwaCE预测一个在单核苷酸多态性数据库（dbSNP）中尚未收录的合成治疗性突变。作者发现NvwaCE预测−68 A>G是HBG1/2诱导的第三有效ABE位点。此外，−68区域在TSS附近存在一个强抑制性基序（图S7C）。该突变在dbSNP或任何已发表文献中均未被记录。因此，作者在一个人类红细胞来源的Hudep2细胞系中对该位点进行了基因编辑实验。尽管细胞培养中的编辑效率仅为23.75%，但作者仍观察到HBG1/2在群体水平上的表达提升了约30倍（图S7D）。由于NvwaCE是在图谱尺度上训练的，这种对合成突变效应的精准预测应适用于本研究中检测的所有脊椎动物细胞类型。综上所述，作者的NvwaCE模型能够基于任意给定的脊椎动物基因组序列预测其染色质可及性图谱。本研究表明，脊椎动物之间的调控“语法”比序列相似性更为保守。

讨论

尽管已有大量基于scRNA-seq构建图谱的研究，但这些图谱通常受限于低表达基因（如转录因子）的“dropout”现象。在UUATAC-seq中，作者设计了一种协议，可在单细胞核中捕获目标DNA调控序列的四个拷贝。此外，实验流程中包含四轮索引步骤，大大提高了通量。通过将每孔最终裂解细胞数控制在1,000个以内，作者将双细胞率控制在1%以下。最终，UUATAC-seq在检测特异性方面优于其他方法，表现为最高的TSS富集得分。

借助UUATAC-seq，作者绘制了五种脊椎动物的染色质可及性图谱。作者发现，开放区域大小和cCRE调控逻辑在脊椎动物间具有高度保守性。此外，作者还发现转座子（TE）序列虽是基因组大小变异的主要来源，但在成体阶段大多处于沉默状态。这表明，基因组大小和TE分布并未改变转录机器的基本架构，且基因组大小的差异并不影响调控语法的保守性。较大基因组中的远端开放区域和TE开放区域可能是常染色质/异染色质相分离识别的结果。作者的模型为增强子敲除实验中缺乏表型的现象提供了一种可能解释。

高质量的UUATAC-seq图谱数据使作者得以构建在cCRE预测方面前所未有的准确且系统化的NvwaCE模型。除了蛋白质结构预测模型外，深度学习在生物医学研究中的应用常常受限于缺乏标准化数据集。尽管转录调控机制复杂，但近年来基于DNA序列的模型已被证明能在不同生物系统中推断出调控逻辑。目前，深度学习似乎是解读转录涌现现象最有效的手段。在本模型中，作者采用了ResNeXt框架，更适用于大规模、多任务的细胞图谱数据分析。NvwaCE能够从未见过的脊椎动物基因组中预测特定细胞类型的调控序列，显示出极强的泛化能力。通过NvwaCE，作者能够以高于MPRA或ENCODE多组学模型的准确性预测合成突变对cCRE活性的影响。虽然一些大型语言基因组模型（如Nucleotide Transformer和Evo）在理解不同细胞类型方面仍面临挑战，NvwaCE不仅能捕捉谱系特异性调控语法（表S7），还能覆盖体内所有主要细胞类型。通过解析深度学习模型，作者揭示了在脊椎动物谱系特异性基因调控中保守的调控逻辑和遗传架构。

可以认为，模型的第一层提取的是7 bp长度的基序模式，中间层代表基序间的相互作用和长距离基因组互作，靠近输出层则针对不同谱系设置了不同参数，最终在单细胞核水平上预测染色质可及性图谱。因此，谱系分离事件应由多任务神经网络所“学习”。此外，模型还将每个物种的调控语法归纳为128种基本元件的组合与互作。总之，作者提出了UUATAC-seq这一高效构建染色质可及性图谱的技术，以及用于脊椎动物染色质图谱预测的NvwaCE模型。作者的研究为深入探索或设计脊椎动物调控序列提供了宝贵的资源。

研究的局限性

NvwaCE专为预测染色质可及性图谱和基因组突变效应而设计，但它无法判断单个增强子或抑制子在调控基因表达水平中的具体功能，也无法预测远端增强子或抑制子突变对基因表达的影响。尽管作者的研究显示序列语法在决定常染色质和异染色质状态中起关键作用，但作者不能完全排除在某些情况下染色质状态可能覆盖序列语法的可能性。此外，尽管NvwaCE在多种细胞类型中表现出较高的预测准确性，但作者提供的功能验证主要集中于人类红细胞谱系作为原理验证。尽管如此，作者认为NvwaCE在预测所有脊椎动物细胞类型的合成cCRE方面应具有相当的准确性。

总结-概述-分析方法

本研究介绍了一种新颖的超高通量、超高灵敏度的单细胞核染色质可及性测序实验方法（命名为UUATAC-seq），以及一个名为NvwaCE的深度学习模型，用于绘制和解读脊椎动物顺式调控序列图谱。其总体目标是加深对脊椎动物基因组中调控序列的理解，这些序列在以往的研究中尚未被完整揭示

实验设计

UUATAC-seq技术开发：研究人员开发了UUATAC-seq技术，用于高效构建染色质可及性图谱。该技术采用同接头转座酶，将第一轮条形码引入开放的基因组区域，克服了传统双接头转座系统只能获得约50%文库产量的限制，从而实现100%分子的扩增。该流程整合了四轮索引步骤，并进行了优化设计：Tn5打断（第一轮条形码）、接头连接（通过杂交与连接引入第二轮条形码）、温度控制的接头转换（第三轮条形码）和PCR扩增（第四轮条形码）。这一设计减少了试剂清洗步骤，避免了交叉污染并降低了样本损失。 UUATAC-seq操作简便，不依赖流式细胞仪（FACS）或10x Genomics平台等昂贵设备，具有广泛的适用性。实验进一步优化发现，使用大肠杆菌DNA连接酶有助于提高唯一片段（UF）的检出率；而55°C条件下的转座酶处理比37°C能产生更多的UF；细胞核固定会降低TSS富集得分并影响数据质量，因此采用了未固定的细胞核进行实验。
物种选择与样本采集：利用UUATAC-seq技术，研究人员绘制了五种代表性脊椎动物（斑马鱼、钝口螈、壁虎、鸡和小鼠）的cCRE图谱，它们的基因组大小差异显著（从1到32 Gb）。所选组织样本覆盖多种生物系统，雌鼠、雄鼠、鸡、壁虎、钝口螈和斑马鱼分别采集了23、22、18、19、15和11种组织类型。针对不同物种和组织类型，研究人员优化了细胞核分离方法和缓冲液条件。其中，小鼠、鸡和壁虎的组织均来自单一个体；钝口螈来自三个个体；斑马鱼则由八个个体混合取样。
NvwaCE模型构建：构建了一个多任务深度学习模型——NvwaCE，用于直接从基因组序列中解析顺式调控“语法”并预测cCRE图谱。模型结构采用深度卷积神经网络，包括一个二维卷积层（128个滤波器，尺寸为7×1）、一个ResNeXt模块（包含4层，每层特定数量的残差块）、一个密集瓶颈层（32个单元用于峰位表示）以及最终的全连接层。输入数据为长度500 bp的DNA序列。模型训练基于五个脊椎动物物种（雌鼠、雄鼠、鸡、壁虎、钝口螈和斑马鱼）的高质量单细胞核ATAC-seq数据。

结果内容

UUATAC-seq性能表现： UUATAC-seq可在一天内完成一个物种的染色质可及性图谱构建。在小鼠脑组织中，与另外九种snATAC-seq方法相比，该技术在唯一片段数（UF）、峰数量、峰内读段比例（FRIP）以及差异可及峰（DA峰）等方面均优于所有对照方法。其检测到的双细胞率最低，峰/启动子区域读段比例最高。该方法表现出超高灵敏度、超高通量和超高效率，单次实验即可处理超过一百万个带条形码的细胞核，同时保持高质量数据输出。研究人员成功获取了五种物种共计1,056,752个细胞核的高质量开放染色质图谱，平均每个细胞核的UF为16,317，TSS富集得分平均为18.6。
cCRE绘制与特征分析：研究共高精度绘制了6,182,084个脊椎动物cCRE。不同物种基因组大小的差异影响了cCRE的数量，但并未改变其长度分布。物种总开放区域数量与其基因组大小呈正相关。预测的其他物种（如人类、猕猴、蚯蚓）中的cCRE数量也与近期研究结果一致。脊椎动物个体开放区域的长度具有保守性，多数集中在约250 bp，另一类则集中在约900 bp，并位于转录起始位点（TSS）附近。约900 bp的开放区域对应经典启动子区域，富含持家型调控基序（如SP1、NRF1）；而约250 bp的开放区域对应传统意义上的增强子/抑制子区域，富含CTCF和谱系相关基序。小鼠中有43.68%的cCRE未被ENCODE联盟注释，来源于重要但罕见的细胞类型，这些新发现的cCRE通过CUT&Tag实验得到了验证。在鸡、壁虎、钝口螈和斑马鱼中，几乎所有的细胞类型特异性cCRE均为首次发现。整个基因组中已定义的开放区域覆盖率稳定在约8%。转座子（TE）在不同基因组中占比差异显著（12%-50%），但其开放区域比例较低（2%-5%），表明其在成体谱系基因调控中的作用有限。
调控“语法”的保守性： NvwaCE模型显示，调控“语法”比核苷酸序列更为保守。即使在非保守区域，小鼠版本的NvwaCE模型也能正确预测约80%的斑马鱼、钝口螈、壁虎和鸡的cCRE。哺乳动物版本的NvwaCE模型成功预测了人类、猕猴、牛、猪、马、羊和熊猫等此前从未训练过的物种的谱系特异性染色质可及性。其中，44.89%的NvwaCE预测的人类cCRE是ENCODE数据库未曾收录的新调控元件，主要来自以往被遗漏的腺体细胞类型。
NvwaCE的应用： NvwaCE能够准确预测合成突变对cCRE功能的影响，并与因果性数量性状位点（QTL）和基因编辑结果高度一致。它可以预测与人类疾病相关的非编码风险变异（如CYP26A1和NINJ2突变）的效应。模型成功预测了与血红蛋白γ亚基（HBG）、β亚基（HBB）以及凝血因子IX（F9）相关的因果性非编码QTL的功能位点。在人类CD34+细胞的腺嘌呤碱基编辑（ABE）筛选实验中，NvwaCE预测的合成突变效应与实验结果之间的相关系数高达0.95，预测准确率为1。模型还成功预测了一个新的治疗性合成突变（−68 A>G）可用于诱导HBG1/2表达以缓解镰状细胞贫血症，并通过实验验证其在群体水平上使HBG1/2表达提升了30倍。模型能识别基因组序列窗口中的高维特征，并将其划分为不同的功能模块（如神经、RNA加工、免疫、脂质等功能模块）。

分析方法

数据预处理与质量控制： FASTQ文件按P7索引拆分，条形码进行标记和纠错后，使用BWA将读段比对至参考基因组。提取非重复片段，并因染色体过大，对钝口螈片段文件进行了分段处理。使用ArchR R包将片段文件转换为箭头文件，生成TileMatrix和GeneScoreMatrix。利用ArchR函数选择细胞条形码并推断双细胞，根据组织类型和测序深度调整TSS富集和UF的阈值。通过人/鼠混合细胞群评估碰撞率，通过双链捕获率分析分子回收效率。
方法比较：在小鼠脑样本中，采用标准化流程和指标（如UF、峰数、FRIP、DA峰、双细胞率）将UUATAC-seq与其他九种scATAC方法进行对比。比较时控制了测序深度和细胞数量。整体数据质量通过累计TSS × UF进行量化。
聚类与注释：采用两轮聚类策略：第一轮用于识别所有组织中的主要细胞类型，第二轮用于解析各谱系内的异质性并进一步细分亚群。使用潜在语义索引（LSI）和UMAP进行降维和可视化。根据差异可及基因和组织信息对聚类结果进行注释。通过Seurat中的典型相关分析（CCA）将snATAC-seq图谱与已发表的scRNA-seq数据匹配，验证注释的准确性。
cCRE识别与特征描述：通过对片段进行聚合，并使用MACS3软件结合各物种基因组大小设定参数来识别可及cCRE。本研究定义的开放区域与常规峰识别方法相比，与批量DNase I超敏感位点的相关性更高。使用ChIPseeker将cCRE按基因组区域分类（启动子、UTR、外显子、内含子、远端基因间区）。使用Cicero识别共可及区域以推测潜在调控环路。计算基因组和开放区域中的转座子（TE）覆盖情况。通过与ENCODE小鼠cCRE比较识别新cCRE，并用CUT&Tag数据验证。
基序分析：使用HOMER和motifmatchr对不同cCRE类别（TSS、近端/远端启动子）进行基序富集分析。使用HOMER进行从头基序发现，并用Tomtom评估基序相似性，以量化基序在物种间的保守性。使用UCSC liftOver工具识别无法比对至小鼠基因组的物种特异性cCRE（即UA元件），并进行功能富集分析。
NvwaCE深度学习分析： scATAC数据经过预处理，包括筛选高质量细胞、调用并扩展峰至500 bp、构建二值计数矩阵，并生成负样本不可及区域，用于深度学习训练。模型使用二元交叉熵损失函数和Adam优化器进行训练，并采用早停机制防止过拟合。模型性能通过保留测试染色体上的AUROC进行评估，结果显示其在准确率方面优于Nvwa和scBasset等现有模型。通过扫描序列对UA元件进行跨物种预测，并对人类和猕猴基因组进行从头预测。将NvwaCE预测的人类cCRE与ENCODE数据进行比较。使用TF-MoDISco提取基于深度学习的调控基序，并可视化其相似性。通过in silico饱和突变分析（ISM）计算单个碱基的重要性评分，识别关键调控元件并预测合成突变效应。将NvwaCE对合成突变效应的预测准确性与MPRA和多组学模型进行比较。通过UMAP聚类和功能富集分析，从NvwaCE的ResNeXt模块层中识别调控序列模块。

该研究论文旨在解决脊椎动物基因组中调控序列理解不完整以及现有单细胞技术和深度学习模型的局限性等挑战。

该研究解决的难点及问题

脊椎动物基因组调控序列理解不完整：脊椎动物基因组中的调控序列仍然未能被全面理解。
缺乏全面的细胞类型分辨的调控序列图谱：对于大多数物种而言，细胞类型分辨的调控序列图谱尚未全面可得。
现有单细胞技术在通量和灵敏度上的局限性：当前的细胞图谱技术在平衡高通量和高灵敏度方面存在困难，同时还存在DNA片段或转录本的丢失以及批次效应（batch effects）导致数据整合复杂化的问题。
数据质量对深度学习模型准确性的限制：大多数现有细胞图谱数据在灵敏度或通量上存在局限，这阻碍了高精度预测模型的生成。
深度学习模型优化仍面临挑战：基因组领域深度学习模型的优化是一个持续的挑战。
传统分析方法对调控元件的武断定义：传统的scATAC-seq分析将染色质可及性峰值标准化为固定的500bp间隔，这人为地限制了调控元件的边界，未能准确表示原生可及性模式。
现有大型联盟未能完全注释所有调控元件：例如，小鼠基因组中高达43.68%的cCREs先前未被ENCODE联盟注释，这些未注释的元件来自重要但稀有的细胞类型。
现有大型语言基因组模型对细胞类型的理解不足：诸如Nucleotide Transformer和Evo等近期的大型语言基因组模型在理解不同细胞类型方面仍然面临挑战。
scRNA-seq数据在低表达基因（如转录因子）上的丢失：尽管scRNA-seq在构建图谱方面付出了广泛努力，但这些图谱通常受限于低表达基因（如转录因子）的丢失。

该研究通过开发UUATAC-seq协议和NvwaCE深度学习模型来应对上述挑战。

1. UUATAC-seq协议的开发和应用：

提高灵敏度和通量：UUATAC-seq利用同源接头转座酶（homo-adaptor transposase）将第一轮条形码整合到开放基因组区域，克服了双接头转座酶系统50%的产率限制，从而实现了100%的分子扩增。该协议通过四步索引实现了流程化操作，显著缩短了处理时间并提高了通量。它易于操作且无需昂贵设备（如FACS或10x Genomics平台），使其具有广泛适用性。

优化数据质量：研究发现，*大肠杆菌* DNA连接酶（E. coli DNA ligase）能提高独特片段（UF）的检测，转座酶在55°C处理比37°C产生更多UF。使用未固定细胞核进行分析，避免了细胞核固定对数据质量和TSS富集评分的负面影响。

卓越的性能和广泛应用：UUATAC-seq在小鼠脑组织上与9种其他snATAC-seq协议进行了基准测试，结果显示其在独特片段（UF）、峰值数量、峰值内读取分数（FRIP）和差异可及性（DA）峰值方面均优于所有其他方法。它实现了超灵敏度、超高通量和超高效率，能够在一个实验中处理超过一百万个带条形码的细胞核，并保持高数据质量。研究利用UUATAC-seq绘制了五种脊椎动物（斑马鱼、墨西哥钝口螈、壁虎、鸡和小鼠）的cCRE图谱，总共绘制了6,182,084个脊椎动物cCREs，具有高分辨率。其定义的开放区域与bulk DNase I超敏位点显示出更高的相关性，相比传统峰值识别方法更准确地代表了原生可及性模式。UUATAC-seq在小鼠cCREs中识别出43.68%先前未被ENCODE联盟注释的新元件，这些新元件主要来自重要但稀有的细胞类型。

2. NvwaCE深度学习模型的构建和应用：

模型架构与训练：NvwaCE是一个巨型任务深度学习模型，旨在直接从基因组序列解释顺式调控语法并高精度预测cCRE图谱。它采用深度卷积神经网络，包含2D卷积层、ResNeXt模块、密集瓶颈层和最终的密集层，以500bp DNA序列作为输入。模型在来自五种脊椎动物的高质量snATAC-seq数据上进行训练，并优于其他架构（如scBasset和Transformer）。研究发现，更高的数据质量对于模型性能至关重要。

预测能力与泛化性：NvwaCE能稳健地预测染色质可及性图谱，在脊椎动物单细胞核上的总体AUROC（受试者工作特征曲线下面积）>0.80。它能准确预测合成突变对cCRE功能的影响，与因果数量性状基因座（QTLs）和基因组编辑结果一致。模型能够跨物种预测cCREs，例如，在小鼠模型上训练的NvwaCE可以正确预测约80%的斑马鱼、墨西哥钝口螈、壁虎和鸡的cCREs，即使在非保守区域也是如此。哺乳动物NvwaCE模型成功预测了人类、猕猴、牛、猪、马、羊和熊猫等七种哺乳动物的谱系特异性染色质可及性，这些物种的基因组序列此前从未被模型遇到过。NvwaCE预测的人类cCREs中，44.89%是ENCODE联盟未覆盖的新调控元件，大部分来自ENCODE联盟遗漏的腺体细胞类型。它甚至能够发现传统方法因可比性问题而可能遗漏的未知调控区域，如tRNA区域。

解释调控语法：NvwaCE证明了调控语法比核苷酸序列更保守。模型能够识别基因组序列窗口中的高维特征，并将其分离为不同的功能模块（如神经元、RNA加工、免疫、脂质功能）。它能准确预测人类疾病相关的非编码风险变异的突变效应，并与实验结果高度吻合（例如，预测对镰状细胞病有治疗作用的*HBG1/2*诱导突变，并得到实验验证，使其表达增加30倍）。在预测合成突变效应方面，NvwaCE的准确性高于来自MPRA或ENCODE多组学数据生成的模型。

最终结论和建议

综合性资源：本研究提供了绘制高效染色质可及性图谱的UUATAC-seq协议以及用于脊椎动物染色质图谱预测的NvwaCE模型。这为进一步研究或设计脊椎动物调控序列提供了宝贵的资源。

调控语法保守性：该研究明确指出，调控语法在脊椎动物之间比序列相似性更为保守。基因组大小差异和转座元件（TEs）分布并不会改变转录机制的结构，基因组大小变异不影响保守的调控语法，大多数远端开放区域和较大基因组的TE开放区域可能是常染色质/异染色质相识别的结果。

cCRE特征：尽管开放区域的数量差异显著，但单个开放区域的大小在脊椎动物中是保守的，大多集中在约250bp，而转录起始位点（TSS）附近则有另一种约900bp的模式。约900bp的开放区域对应于经典的启动子，而约250bp的开放区域对应于经典的增强子/阻遏子。

模型应用潜力： NvwaCE能够准确预测给定脊椎动物基因组的染色质可及性图谱，并且可以预测合成突变对cCREs活性和疾病相关非编码变异功能的影响，这对于理解人类疾病和设计靶向性治疗具有巨大潜力。

未来研究方向（局限性与展望）

NvwaCE目前无法直接确定单个增强子或阻遏子在调节基因表达水平中的功能，也无法预测远端增强子或阻遏子突变引起的基因表达变化。尽管研究发现序列语法在定义常染色质和异染色质状态中起关键作用，但不能完全排除在某些情况下染色质状态可能优先于序列语法的可能性。尽管模型在多种细胞类型中表现出高预测准确性，但功能验证主要集中在人类红细胞谱系作为概念验证，作者认为该模型在预测所有脊椎动物细胞类型中的合成cCREs方面应表现出可比的准确性，这暗示了未来需要更广泛的验证。

该研究论文主要通过开发一种新型的单细胞测序协议 UUATAC-seq 和一个巨型任务深度学习模型 NvwaCE 来解决脊椎动物基因组调控序列理解不完整以及现有技术和模型局限性的问题。

NvwaCE 深度学习模型：NvwaCE 是该研究的核心新型计算工具，旨在直接从基因组序列解释顺式调控语法并高精度预测 cCRE 图谱。
目的与功能:解释顺式调控语法。高精度预测 cCRE（候选顺式调控元件）图谱。准确预测合成突变对 cCRE 功能的影响，并与因果数量性状基因座 (QTLs) 和基因组编辑结果一致。预测染色质可及性图谱，推断进化效应，并评估合成突变。
模型架构: NvwaCE 是一个深度卷积神经网络。输入： 500 bp 的 DNA 序列，通过 One-Hot 编码进行处理。
主要组成部分： 2D 卷积层：包含 128 个大小为 7x1 的滤波器，随后是批归一化、修正线性单元 (RELU) 和最大池化层。 ResNeXt 模块：包含 4 层，每层具有特定数量的块（3、4、6、3）。每个块包含两个卷积层、两个批归一化层和两个 RELU 层。稠密瓶颈层：包含 32 个单元用于峰值表示，随后是批归一化层和 dropout 层，dropout 率为 0.2。最终稠密层：单元数量与使用的细胞数量相同，通过 Sigmoid 激活函数以多任务方式预测每个细胞中每个峰值的连续可及性概率。、模型训练与优化:目标函数：训练过程中使用二元交叉熵损失 (BCE Loss) 来量化每个预测与其对应目标之间的差异。学习率： 1e-3。早停机制：当最小训练损失在连续 10 个 epoch 中没有下降时，停止训练以防止过拟合。批量大小： 100。优化器： Adam 优化器。
数据质量的重要性：研究发现，更高的数据质量对于模型性能至关重要。使用 UUATAC-seq 生成的鼠标图谱数据训练的模型，其准确性远高于使用先前发布的鼠标图谱数据训练的模型。
训练数据：模型在来自五种脊椎动物（斑马鱼、墨西哥钝口螈、壁虎、鸡和小鼠）的高质量 snATAC-seq 数据上进行训练。训练在完全独立的测试染色体上进行，以避免信息泄露。
微调： NvwaCE 可以通过特定数据集进行微调，例如使用 Buenrostro 等人的研究中人类 CD34+ 造血多能祖细胞的染色质图谱数据进行微调，以预测合成突变效应。

研究中使用的其他分析计算方法

该研究使用了多种现有的生物信息学工具和 R/Python 包来处理、分析和解释数据：

1. 数据预处理与质量控制:

FASTQ 文件处理：使用 `splitBarcode` (v0.1.6) 进行 P7 索引分割。细胞条形码标记：使用 `Drop-Seq tools` (v2.5.1) 将细胞条形码标记到读取名称中。序列比对：使用 `BWA` (v0.7.15) 将读取比对到不同物种的参考基因组（mm10、galGal6、Emac_v1.0、AmexT_v47-AmexG_v6.0-DD、danRer11）。Tn5 插入偏好校正：使用 `deepTools` (v3.5.1) 的 `alignmentSieve` 功能。片段提取与过滤：提取长度在 10bp 到 1000bp 之间的非重复片段。数据转换为 arrow 文件：使用 `ArchR` R 包 (v1.0.1) 生成 `TileMatrix` 和 `GeneScoreMatrix`。细胞条形码选择与双细胞去除：使用 `ArchR` 的 `addDoubletScores` 和 `filterDoublets` 函数，根据 TSS 富集分数和独特片段 (UF) 数进行过滤。双链捕获率和双等位基因捕获率评估：手动计算方法，基于具有相同条形码、染色体、起始位点、终止位点且正反链比对的片段比例。

2. UUATAC-seq 性能基准测试:

与其他 snATAC-seq 协议比较：将 UUATAC-seq 与 9 种其他 snATAC-seq 协议（如 10x scATAC v1.1/v2, dscATAC, HyDrop-ATAC, Paired-seq, s3-ATAC, sci-ATAC, SHARE-seq, snATAC）进行基准测试。

数据处理：所有数据通过相同的标准化 `ArchR` 流程处理。

评估指标：独特片段数 (UF)、峰值数、峰内读取分数 (FRIP)、差异可及性 (DA) 峰值、双细胞率、峰内读取数、启动子读取数、启动子比例、TSS 富集分数。

数据兼容性评估：联合 UMAP 可视化 (`umap`) 和聚类整合，使用 R 包 `lsa` 的 `cosine()` 函数计算细胞类型相似性。

3. 聚类与注释:

两轮聚类策略：首次聚类识别主要细胞类型，随后在谱系内进行亚聚类分析。

LSI (Latent Semantic Indexing)：使用 `ArchR` 的 `addIterativeLSI` 函数。

UMAP 可视化：使用 `ArchR` 的 `addUMAP` 函数。

标记基因识别：使用 `ArchR` 的 `getMarkerFeatures` 函数，基于基因可及性评分。

细胞类型注释：基于可及性标记基因和组织信息。

4. 多组学数据整合分析 (scRNA-seq 和 snATAC-seq):

细胞类型匹配：使用 `Seurat` (v4.3.0.1) 中的 CCA (Canonical Correlation Analysis) 对 scRNA-seq 和 snATAC-seq 数据进行整合和细胞类型匹配。

基因可及性评分：对 snATAC-seq 数据进行 Log2 转换的基因可及性评分作为基因表达的代理。

近邻搜索：使用 `FNN` R 包 (v1.1.3.2) 的 `kd_tree` 算法和欧氏距离进行最近邻搜索。

基因调控网络构建：使用 `SCENIC+` 推断 eRegulons（增强子驱动的调控网络），整合 scATAC-seq 和 scRNA-seq 数据。

差异可及区域 (DARs) 识别：使用 `pycisTopic`。

基序富集分析：使用自定义脚本或默认数据库构建区域-基序排名数据库。

5. cCRE 识别与分析:

峰值识别：使用 `MACS3` (v3.0.0 beta 3 release) 的 `macs3 callpeak` 命令，用于全局和谱系水平的 cCRE 识别，参数包括基因组大小、BEDPE 格式、q 值等。

开放区域与传统峰值比较：将 `macs3` 生成的 bedGraph 文件转换为 bigwig 格式，使用 `deepTools` (v3.5.3) 的 `multiBigwigSummary` 计算 Spearman 相关性，并用 `plotCorrelation` 生成热图。

cCRE 分类：使用 `ChIPseeker` (v1.36.0) 的 `annotatePeak()` 函数将 cCRE 分类为启动子、UTR、外显子、内含子、远端基因间区等九类。

调控回路识别：使用 `Monocle3` (v1.3.4) 转换矩阵，再使用 `Cicero` (v1.3.9) 识别共可及区域，参数包括聚合 k 值、窗口大小、距离约束和共可及性阈值。

转座元件 (TE) 分析：使用 `ChIPpeakAnno` R 包的 `findOverlapsOfPeaks()` 函数计算重叠峰值，使用 `bedtools intersect` 计算重叠碱基数。

新 cCRE 识别与验证：使用 `ChIPpeakAnno` R 包的 `findOverlapsOfPeaks()` 函数识别相对于 ENCODE 联盟未注释的新 cCRE。

基序富集分析：使用 `motifmatchr` R 包 (v1.22.0) 的 `matchMotifs()` 函数，匹配 HOMER 数据库中的基序。

基序保守性定量：使用 `HOMER` (v4.11.1) 的 `findMotifsGenome.pl` 命令进行 *de novo* 基序发现，然后使用 `tomtom` (v5.5.3) 量化基序相似性。

非比对元素 (UA) 识别与功能富集：使用 `UCSC liftOver tool` 进行跨物种基因组坐标转换。使用 `bedtools makewindows` 对 UA 元素进行分窗。使用 `macs3 bdgpeakcall` 识别预测可及区域。功能富集分析使用 `clusterProfiler` 进行基因本体 (GO) 富集分析。

钝口螈再生分析：使用 `IRanges` R 包的 `findOverlaps()` 函数确定再生相关 cCREs 与非保守 cCREs 的重叠。

6. NvwaCE 模型应用与解释:

跨物种预测：使用训练好的 NvwaCE 模型扫描其他脊椎动物基因组。

人类和猕猴的 *de novo* 单细胞图谱预测：使用 `bedtools makewindows` 创建滑动窗口，`bedtools getfasta` 提取序列。预测输出通过奇异值分解 (SVD)、`Signac` (v1.10.0) 聚类和 t-SNE (t-distributed stochastic neighbor embedding) 可视化。

预测 cCRE 与实验 cCRE 比较：使用 `deepTools` (v3.5.2) 的 `multiBigwigSummary` 进行相关性分析。

NvwaCE 基序识别与可视化：使用 `TF-MoDISco` 提取基于深度学习的基序。使用 `TomTom` 查询 JASPAR2024 数据库进行基序相似性量化。使用 `motifStack` 包可视化基序模式。

宽窄 cCRE 预测：使用 `bedtools makewindows` 和 `bedtools getfasta` 提取序列进行预测。

同源基因染色质可及性跨物种预测：提取目标基因 TSS 上游 500bp 序列作为输入。

调控序列模块识别：使用 `Scanpy` (v1.9.3) 对序列嵌入进行降维和聚类。进行 GREAT 本体富集分析。

精细定位变异预测与验证：进行 *in silico* 诱变 (ISM) 分析，计算突变序列与参考序列在所有谱系中预测输出的差异。

因果非编码 QTLs 预测与验证：类似地，对特定 QTLs 进行 ISM 分析。

合成突变效应预测：在 Buenrostro 等人的数据集上微调 NvwaCE 后，进行 ISM 分析，并与 ABE（腺嘌呤碱基编辑器）实验结果进行比较。与 MPRA 模型 (Malinois) 和多组学模型 (ChromBPNet) 进行基准测试。

*In silico* 饱和诱变 (ISM)：对 HBG1 TSS 上游 500 bp 序列进行 ISM，识别关键调控元件，并使用 `FIMO` 扫描已知基序。

论文数据分析复现（用户指南）

# 安装和使用
# 测试系统 Ubuntu 22.04.5 LTS && Python 3.13.2 && R 4.2.2 && CPU
# 代码链接：https://github.com/ehcilc23/UUATAC# 数据下载：https://bis.zju.edu.cn/uuatac/# 数据下载：https://figshare.com/s/0dfc0ba97f54b429af69
# 单独构建新环境conda create -n uuatac_env python=3.13conda activate uuatac_env
git clone https://github.com/ehcilc23/UUATAC.git #（我们提供了最近包）cd UUATAC
# 关于分析，其实作者也给了很细的每一步的分析脚本，毕竟是scATAC，所以对比ArchR
# 测试：scATAC_Analysis_by_ArchR.Rlibrary(argparse)library(dplyr)library(data.table)library(ArchR)library(BSgenome.Mmusculus.UCSC.mm10)library(Seurat)
# 关于模型使用：scripts/ResNextATAC （相对常规吧？？LOL）
import torchimport torch.nn as nnimport math
#分析相对简单，读者可以使用自己的数据试试(不同的物种建模，具体测试有问题，欢迎留言)
# 欢迎提问题(私信（最好的方式）或者留言都可以，最近都很忙...,希望理解时间的延迟）LOL.....😊😊

文献原文及其他参考文献和新分析方法的复现（包含分析数据和梳理好的代码）可以后台获取下载链接，关键词：250714（后台输入关键词250714，自动回复下载链接）；针对研究论文中的分析，任何问题都可以私信或留言询问。

我们也创建了一个交流群，平时大家可以一起学习交流，我们也会花时间维护（欢迎大家加入分享交流群，也希望大家多提需求）：

团队信息

Guo Lab

[https://person.zju.edu.cn/en/ggj#715122]

https://person.zju.edu.cn/xhan#0

揭示空间转录组学在转化研究中的潜力 || BioChain & Enable Medicine

空间转录组学的模型和方法 || Ben Raphael || CGSI（点击扫码观看）

Sarah Teichmann || 英国剑桥大学 || 单细胞生物学（点击扫码观看）

更多资源欢迎关注B站（关注MCBRLab ）

Elizabeth Dorans || 哈佛医学院 || 单细胞多组学技术和分析方法（点击扫码观看）

其他参考基础模型：

Nature Methods || 大规模单细胞转录组学基础模型 || scFoundation

scGPT-spatial：面向空间转录组学的单细胞基础模型（scGPT || Nature Methods）的持续预训练

Nature || 2024 HCA || SCimilarity：一种用于大规模搜索相似人类细胞的细胞图谱基础模型-单细胞注释

Nature || 2024 HCA || 人类神经类器官的综合转录组细胞图谱-单细胞注释

Nature Genetics || 2024 || 人类乳腺细胞图谱 || 单细胞图谱能够映射成人人体乳腺的稳态细胞变化

综述：利用最优传输技术分析单细胞和空间组学数据 || Nature Reviews Methods Primers

Nature Genetics || 利用高级统计方法（潜在嵌入多元回归）解析多条件下的单细胞组学数据

Nature Methods || 综述：单细胞多组学中的小样本方法：单个数据点的重要性

Nature Reviews Genetics || 综述：单细胞多组学时代的基因调控网络推断

参考文献：

Han X, Wu H, Wang X, Liu D, Fu Y, Yang L, Wang R, Zhang P, Wang J, Ma L, Mao J, Zhou L, Wang S, Zhang X, Jiang M, Wang X, Wen G, Jia D, Guo G. Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning. Cell. 2025 Jul 1:S0092-8674(25)00686-5. doi: 10.1016/j.cell.2025.06.020. Epub ahead of print. PMID: 40633538.