该书在撰写过程中力求保持统一风格,每一章均按照特定机器学习范式的“适用场景”-“理论思想”-“组学应用概述” -“研究案例”-“案例小结”五部分展开,旨在结合组学数据特点对相应的机器学习范式进行介绍,并展示相应的组学挖掘研究案例。这些案例均体现了作者团队多年在组学数据挖掘领域进行的有益尝试,主要隶属于精准医学方向,涉及靶点识别、药物发现、个体化用药、免疫治疗以及基因编辑等多个具体领域,其中所涉及的组学数据包括基因组、转录组、免疫组、单细胞组、药物基因组、CRISPR 功能基因组等。
需要特别说明的是,由于人工智能和机器学习相关的书籍、文献、网上资源非常丰富,故该书避免了对特定的机器学习算法进行繁复的介绍,仅关注对相应的机器学习范式和理论思想进行梳理与总结。如果把具体的机器学习模型比喻成特定的“武功招式”,那么该书介绍的机器学习范式和理论思想则相当于“内功心法”。我们建议读者不必拘泥于一招一式,而是去学习“内功”。正所谓“万象归一,大道至简”,机器学习的模型层出不穷、千变万化,但是其核心的理念和思想是可以梳理与总结的,该书将帮助读者建立这种学习范式的全景图。
该书由清华大学张学工教授和微众银行首席人工智能官杨强教授作序,得到了国家自然科学基金项目、科技部重点研发计划项目、上海市科技创新行动计划项目,以及微众学者基金的支持。正如张学工教授所指出:“生物组学数据的机器学习包含的方面非常广,该书虽然选择只在其中一部分有代表性的问题上进行阐述,但足以窥见整个领域的重要特点和核心思想,相信该书对于广大生命科学和机器学习研究者都将有很大的借鉴和启发意义。通过该书,读者应该认识到,面向生命科学的人工智能,与现在最成功的面向计算机视觉、自然语言处理和机器博弈等领域的人工智能相比,有很多独特的挑战。其中最大的区别是:在人工智能取得重要突破的这些领域,人们希望人工智能完成的任务和具有的能力是人类本身能完成和已经具备的,虽然在其中一些任务上人工智能已开始超越人类;但在生命科学领域,以组学数据分析为例,人们获取组学数据的目的是理解人类现在尚不能理解的原理和规律,人类本身并没有能力仅依靠自己的知识完成对如此大量、高维、高噪声和不完整数据的分析,我们希望人工智能帮助完成的是人类本身并不能完成的任务。我想,这应该是面向生命科学的人工智能所面临的最大挑战。该书给出的成功案例让我们看到了组学机器学习的巨大潜力,但这仅仅是人们用人工智能帮助探究生命奥秘的开始,更多问题还在等待我们去突破。”
让我们一起走进“组学”+“智能”这一激动人心的前沿交叉领域。人工智能驱动的组学数据挖掘,将是一种碳基智能和硅基智能的完美融合,我们期望为读者展现这二者融合的美丽风景!也希望和读者一起在其中留下绚烂的一笔!