随着生命科学的快速发展,组学(Omics)测序技术层出不穷,为理解复杂的生命体提供了支撑性的技术手段。而人工智能(AI)的突飞猛进,又将有效的助力生物医学研究,形成“AI for Science”的交叉研究新范式。从AlphaGO到AlphaFold再到ChatGPT,颠覆性的AI技术和应用不断涌现。 传统生命科学研究的范式正在从研究单个基因、单个蛋白的还原论范式,向依托于大规模组学测序技术进行基因组、蛋白质组研究的系统论范式转变,而AI正是推动这场范式变革的重要驱动力之一。生命科学领域的科学研究正在经历一场风暴,风暴源于狂飙突进的人工智能技术,“拥抱”还是“逃离”,成为摆在每位教学和科研工作者面前的选择题。
该书第1章首先提出了组学测序技术发展的方向,包括多尺度、跨模态、有扰动等,同时总结了组学数据的高维度、高噪声、多模态、标记稀缺等特点,这种组学数据的特点成为制约其有效挖掘的瓶颈。基于此,同时提出了面向组学数据弱监督特点的机器学习研究范式的整体框架,该书的第二部分为组学的表征学习,具体包括第2~4章,分别介绍对于组学样本进行有效表征的三个层面:度量(第2章),嵌入(第3章),多模态整合(第4章);该书的第三部分为组学的弱监督学习,具体包括第5~8章,分别介绍了弱监督场景下组学数据挖掘具体的机器学习范式和方法,包括:半监督学习(第5章),迁移学习(第6章),元学习(第7章),主动学习(第8章);该书第四部分为组学数据的隐私计算,具体介绍一种特定的隐私计算方法—联邦学习(第9章)。 机器学习模型和算法层出不穷,但涉及生物医学数据的分析,作者认为其核心思想仍是一种弱监督学习的体现,这种弱监督学习的范式体现在第2~8章。联邦学习(第9章)在生物医学领域亦是一种弱监督场景下隐私计算的特定方式。故建议读者以“弱监督”这一核心思想来理解该书的撰写逻辑和思路。从这个意义上说,机器学习算法的设计和应用,不是一个简简单单的模型套用和调参,而应该针对组学数据本身的特点来进行系统的发展,这也是“AI for Omics”所追求的最高目标。