

大规模基因表达数据正被用于预训练模型,以隐含地学习基因和细胞功能。然而,这样的模型需要大量的数据管理和训练。鉴于此,斯坦福大学James Zou等研究人员探索了一种更简单的替代方案:根据文献利用ChatGPT嵌入基因。以Simple and effective embedding model for single-cell biology built from ChatGPT为题发表在Nature Biomedical Engineering上。

研究人员使用GPT-3.5从单个基因的文本描述中生成基因嵌入,然后通过平均每个基因表达水平加权的基因嵌入来生成单细胞嵌入。
研究人员还为每个细胞创建了一个句子嵌入,只使用按表达水平排序的基因名称。在许多用于评估预训练单细胞嵌入模型的下游任务中,特别是基因属性和细胞类型分类的任务,研究人员命名为GenePT的模型取得了与数百万细胞基因表达谱预训练模型相当或更好的性能。GenePT表明,文献的大语言模型嵌入为编码单细胞生物学知识提供了一条简单有效的途径。

图|GenePT框架概述

图|GenePT基因嵌入编码潜在生物学

图|GenePT-s嵌入可实现更好的批量集成,同时为scRNA-seq数据保留生物信息
Chen, Y., Zou, J. Simple and effective embedding model for single-cell biology built from ChatGPT. Nat. Biomed. Eng (2024). https://doi.org/10.1038/s41551-024-01284-6Nanolab纳米材料交流QQ群:937788022Nanolab纳米材料交流QQ群:937788022
若您制备的材料想要入驻nanolab平台,添加编辑微信 18159896237,备注:姓名-单位-材料名(无备注请恕不通过)。