深度学习在医药大数据中的应用研究进展（独家原创）

正文

深度学习在医药大数据中的应用研究进展

赵霞1，陈瑶2，郑晓南3，廖俊2*

（1. 江苏省无锡市药品不良反应监测中心，江苏无锡214028；2. 中国药科大学理学院，江苏南京211198；3. 中国药科大学期刊编辑部，江苏南京210009）

[ 摘要] 随着医疗水平的提高和信息化技术的不断完善，各类医药数据迅速累积，深度学习在图像识别、语音识别、自然语言处理等方面的卓越表现为医药大数据的利用带来新的思路。简介深度学习常见网络结构，综述其在医学图像、电子病历和基因组学等3 个方面的最新研究进展，分析并总结深度学习在医药大数据中所面临的挑战，为深度学习在医药大数据中的应用提供参考。

生物信息领域产生的分子层面的基因突变、基因表达等数据，制药企业在药物研发过程中产生的临床试验数据，疾病患者或药物使用者在社交媒体发布的患病及用药感受，医疗移动设备收集的用户日常健康数据等，都是医药大数据的主要构成部分，其对于医院的疾病辅助诊断和治疗方案确定、制药行业的研发及营销效率、监管部门对于流行病的预测和对药物不良反应的监测、患者的个性化治疗和个人健康管理等都具有重要意义。

深度学习作为大数据分析所涉及的关键技术之一，由于其克服了传统机器学习算法依赖人为特征建立与筛选的限制，在语音识别、视觉对象识别、目标检测、药物发现等诸多领域都取得了较好的实践结果。本文将从深度学习结构框架、其在医药大数据中的应用及所面临的挑战3 个角度展开综述。

1 深度学习常见结构及原理

1.1 深层神经网络

深层神经网络（deep neural network，DNN）的本质为包含多个隐含层的前反馈神经网络，一个n 层的DNN包含输入层、输出层和二者之间的非线性隐含层，每个隐含层和输出层都由若干个神经元构成（见图1）；当所有的输入通过所有隐含层到输出层后，神经网络就会产生一个预测值，这一过程叫作前馈。网络接受输入值，计算激活函数值到输出，隐含层中的神经元通常以sigmoid 函数作为激活函数，以便将激活值转化为概率值。激活函数将神经元加权后的输入值映射到输出并作为下一层的输入，输出层使用softmax 激活函数。

多层的DNN 模型可以通过梯度下降来进行训练，复杂神经网络可以基于反向传播过程来计算目标函数相对于每个模块中的参数的梯度，反向传播过程的数学原理即为链式法则。目标函数相对于每个模块的梯度具有一定的独立性，这是链式法则的关键，目标函数相对于一个模块的输入的梯度可以在计算出目标函数相对于该模块输出的梯度之后被计算，反向传播规则可以反复施加通过所有模块传播梯度，从而实现度（即误差）的不断反向传播，从最后一层一直传播到原始的输入。

DNN 可用于代指利用感知器、自动编码器、受限玻尔兹曼机构建网络结构的多层感知器（multilayerperceptron，MLP）算法、堆栈自编码器（stackedautoEncoder，SAE）算法和深度置信网络（deep beliefnetwork，DBN）算法。

1.2 卷积神经网络

典型的卷积神经网络（convolutional neural network,CNN）由输入层、卷积层、池化层、全连接层和输出层组成（见图2），开始几层是卷积层和下采样层的交替，在靠近输出层的最后几层网络为全连接网络。卷积核是卷积层的重要组成部分，主要用于自动提取输入图像的深层信息。利用CNN 进行特征提取时，先从原始图像中随机选取一小块区域作为训练样本，模型可以从小块样本中学习到一些特征，然后将这些特征作为滤波器与原始的图像做卷积运算，从而得到原始图像中不同特征的激活值。

对图像的一个局部中不同位置的特征进行聚合统计称为池化作用，一般有最大池采样（计算一个区域内的某个特征的最大值）和平均池采样（计算一个区域内的某个特征的平均值） 2 种方法。由于图像是静态的，所以在一个区域的特征极有可能也适用于其他的区域。与直接使用卷积后的特征相比，这些统计特征不仅可以降低特征向量的维度，减少分类的计算量，还可以扩充训练数据，防止过拟合。

1.3 循环神经网络

在传统的神经网络模型中，从输入层到隐含层再到输出层，层与层之间是全连接，但是每个层内的节点无连接，这就导致其无法对时间序列上的变化进行建模。循环神经网络（recurrent neural network，RNN）的网络则会对前面的信息进行记忆并应用于当前的输出计算中，即隐含层之间的节点不再是无连接，并且隐含层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。此外，有别于传统的机器学习模型中隐含层单元彼此之间对等，RNN 中的隐含层从左向右是有时序的。如图3 所示，一条单向流动的信息从输入层到达隐含层，与此同时另一条单向流动的信息从隐含层到达输出层，特殊情况下RNN 会打破后者的限制，引导信息从输出单元返回隐含单元，并且隐含层的输入还包括上一隐含层的状态，即所谓的隐含层内的节点可以自连也可以互连。

深度学习3 种常见框架网络结构的差异使得其在具体应用时各有侧重，表1 列出了各框架的特点、类似结构算法及常见应用。

2 深度学习在医药大数据分析中的应用

近年来，得益于并行、分布式计算的发展，深度学习在大数据集中的图像分类、语音识别、自然语言处理等方面都取得了很好的研究成果。就医药领域而言，深度学习主要集中于对医学图像、电子病历、基因组学的分析。图4 展示了PubMed 中近10 年基于这3 个方面的深度学习文章数目分布及趋势，本文也将主要从这3 个方面对深度学习在医药大数据的应用进行分析。

2.1 医学图像

现代医疗技术的快速发展使得磁共振成像（magneticresonance imaging，MRI）、电子计算机断层扫描（computed tomography，CT）、光学相干断层扫描（opticalcoherence tomography，OCT）、B 超影像等医学图像在临床诊断中发挥着举足轻重的作用，而传统的以医生经验为主导的图像诊断行为往往伴随着一定的误差。2015 年发表的一项研究结果中，不同病理学家对乳腺活检样本整体诊断一致性为75.3%，对其中的异型性肿瘤诊断一致性仅为48% 。此外，2017 年一项研究将深度学习模型用于已经扩散到乳腺相邻淋巴结的乳腺癌图像识别中，结果显示深度学习模型准确率明显高于病理学家人为判断的准确率。表2 列出了几项深度学习在医学图像中的应用案例。

2.2 电子病历

电子病历中的数据表现形式主要为自由文本，除了结构化的病人基本信息外，还包括非结构化的诊断信息、用药信息、检查信息、临床记录等，加上个人电子病历的时序性，使得很难通过人工对这些大量文本信息进行分析与利用。深度学习对于同一区间内所有案例的分析以及同一病人不同时间节点的分析都具有很大优势，所提取的信息对于个性化治疗、疾病预测、病人相似度计算、临床试验等都具有重要意义。

例如，Rajkomar 等使用的深度学习模型对大量异源电子病历中的住院死亡率、30 d 内再住院、住院时间延长以及病人出院诊断都取得了较好的预测效果，与传统预测方法相比，深度学习实现了对异源数据更加快速且有效的利用；Lafreniere 等根据约18 万名慢性病患者的当前健康数据、电子病历中的医疗记录以及人口基本信息，利用深度学习的方法对病人是否存在高血压风险进行预测，最终获得82% 的准确率，对于疾病辅助诊断及病人自我健康管理都具有重要意义；Choi 等收集到8 年内 26 万名病人的电子病历数据，利用循环神经网络算法处理时间序列数据的优势，对电子病历中的诊断、用药、处方、进程等数据进行学习，以期预测未来时间节点的疾病诊断和用药方案，最终在不同的语料集上都得到了很好的验证。综上可以发现，深度学习在大量异源异构以及时序性的电子病历的分析与预测任务中具有明显的优势。

2.3 基因组学

基因组学高维度特征，使得一般算法很难从中提取内部结构特征，深度学习的深层神经网络则能够很好地解决特征提取问题。例如，Wang 等通过条件随机场（conditional random field，CRF）和神经网络结合的方法对蛋白质二级结构进行预测，所得的模型很好地解决了复杂的序列-结构关系和相邻二级结构之间的依赖性问题；Zeng 等则利用CNN 对转录因子数据集中的DNA 序列结合位点进行预测并取得了较好的预测结果。除了分子层面的研究，由于癌症的发生与细胞基因突变存在一定关系，也有学者将深度学习运用于基因与表型研究，例如Yuan 等基于深度学习开发的DeepGene实现了根据病人的基因突变数据鉴别癌症类型的功能。

基因组学的研究对于精准医学具有重要意义，但是由于检测基因突变和基因表达数据昂贵，且基因表达和疾病表型之间的关系尚需要大量研究，目前深度学习在这一领域的研究尚没有其在医学图像和电子病历中的应用普遍。

3 医药大数据面临的挑战

3.1 医药数据的共享

医药大数据既包括医疗机构的诊疗数据，也包括管理部门的医保数据和公共卫生数据、制药企业的临床试验数据等，这些数据往往存在于各机构的数据库，目前尚没有将这些数据库整合的平台。此外，各机构之间信息孤岛的现象也使得各数据库之间标准不一致，很多的编码、信息标准等都没有行业统一规范，这就导致不同机构之间数据库融合时存在一定障碍。因此，各机构之间的数据共享是医药大数据形成的第一步，对这些数据执行统一标准规范则是整合的关键。

值得注意的是，由于医药数据很多涉及患者隐私，在数据共享时必须注意隐私保护问题，因此数据共享前的去隐私化尤为重要。除了技术层面的挑战，还需要建立相应法律法规以保证数据共享的顺利完成。

3.2 医药大数据的存储

医药数据的爆发式增长在给医药大数据研究提供机遇的同时也为各机构的大数据存储带来一定压力，例如，一张病理切片的扫描图像大小大约为2 GB，普通的存储硬件显然不能满足需求。除了硬件方面的需求，选择什么样的结构来存储以便更好地存取也是医药大数据面临的一项挑战。大数据除了数据量大、数据结构多元以外，还会实时产生海量的新数据，因此医药大数据在存储时还要充分考虑数据的变化因素。

3.3 医药大数据的处理与分析

大数据的分析与计算是实现医药大数据价值的关键，对于动态实时更新的海量医药大数据，传统的单机系统和串行计算很难实现。目前普遍采用的大数据计算技术为分布式计算框架，该框架下需要解决可扩展性、容错和自动恢复、任务调度模型、计算资源的利用率、时效性等问题。这些都需要医药从业人员具备一定的数据处理能力，同时具备对不断更新的大数据技术的适应能力。

大数据分析需要解决多源异构数据融合、非结构化数据存储等问题，大数据集为深度学习神经网络中所需的各项参数提供数据基础，而深度学习强大的特征提取和抽象能力，提供了一个不再依赖于随机抽样和寻求因果关系的新视角，使得大数据的分析不再依赖专家经验而进行人工分析建模。如何将深度学习更好地运用于医药大数据分析的各个方向还需要不断的研究。

3.4 标注数据的采集

作为机器学习的一种，深度学习模型同样需要大量标注数据集训练得到，而标注数据集通常需要领域专业人员手动标注形成，标注过程耗时耗力且易受标注者主观认知影响。目前我国医药领域的标注数据集在标注完成后通常仅供内部研究使用，很少有科研工作者愿意将已有的标注数据集公开，这就导致其他科研工作者在进行类似研究时难以快速展开。为了克服标注数据的稀缺问题，很多研究者开始将目光转向未标注数据的利用，如利用小数据集进行学习以获得未标注数据标签的半监督学习方法等。

3.5 异构数据的融合

除了常见的文本、图像形式的数据，医药大数据中还包含大量的基因组学数据、化学结构数据等，所有这些结构化、半结构化和非结构化的数据的融合对于更多潜在关联信息的挖掘至关重要，但同时也是利用医药大数据的挑战之一。异构数据融合的常用方法即为将半结构化、非结构化数据转化为可被计算机识别的结构化形式数据，如利用自然语言处理技术将文本中的实体、实体关系进行提取，继而对结构化的实体和实体关系进行相应研究。更多类型的数据融合则需要分别应用多种方法进行转换，这仍然是众多研究领域需要攻克的难题。

4 结语

本文以DNN、CNN、RNN 的划分模式对深度学习的基本框架进行了介绍，并从医学图像、电子病历和基因组学3 个角度对深度学习在医药大数据中的应用进行了综述。就医学图像而言，多项研究表明深度学习模型对疾病相关图像的分类或预测结果的准确率要优于人工判断；电子病历的横、纵向研究以及基因组学的研究，则为当下提倡的“精准医学”提供了更多参考信息。

深度学习在医药大数据中的广泛应用为临床辅助决策、疾病监管、新药研发等都提供了新的思路，但是与此同时也面临着诸多挑战。随着各项医疗水平的进步、计算机硬件及计算能力的提升，医药大数据与深度学习也必将能愈来愈好地结合，如何选择相应深度学习算法并通过一定调整将其成功应用于目标医药类数据中是两者结合需要解决的主要问题。除了文章中总结的医学图像、电子病历及基因组学3 类数据应用，研究者还可以从更宏观的某一类疾病、某一类患者、某一地区的所有医药相关数据，或者是更微观的某一种药物、某一个体、某一类基因的单一类型数据入手，利用深度学习算法或深度学习算法与其他算法的结合去挖掘更多常规方法所不能检测到的内容，从而发现更多医药大数据中潜在的有效信息。

关于我们

● 感谢您阅读《药学进展》微信平台原创好文，也欢迎各位读者转载、引用。本文选自《药学进展》2019年第1期。

●《药学进展》杂志, 由中国药科大学和中国药学会共同主办、国家教育部主管，月刊，80页，全彩印刷。刊物以反映药学科研领域的新方法、新成果、新进展、新趋势为宗旨，以综述、评述、行业发展报告为特色，以药学学科进展、技术进展、新药研发各环节技术信息为重点，是一本专注于医药科技前沿与产业动态的专业媒体。

《药学进展》注重内容策划，加强组稿约稿，深度挖掘、分析药学信息资源，在药学学科进展、科研思路方法、靶点机制探讨、新药研发报告、临床用药分析、国际医药前沿等方面初具特色；特别是医药信息内容以科学前沿与国家战略需求相结合，更加突出前瞻性、权威性、时效性、新颖性、系统性、实用性。根据最新统计数据，刊物篇均下载率连续三年蝉联我国医药期刊榜首，复合影响因子0.760，具有较高的影响力。

《药学进展》编委会由国家重大专项化学药总师陈凯先院士担任主编，编委由新药研发技术链政府监管部门、高校科研院所、制药企业、临床医院、CRO、金融资本及知识产权相关机构百余位极具影响力的专家组成。

《药学进展》编辑部官网：www.cpupps.cn；邮箱：yxjz@163.com；电话：025-83271227。欢迎投稿、订阅！