精准医疗的主要目标是快速可靠地检测出患有严重和异质性疾病的患者。可以根据患者的血液转录组使用机器学习来识别疾病患者。然而,由于隐私立法的原因,技术可行和法律允许之间的差距越来越大。联邦学习在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。但它的参数仍由中央的参数服务器处理,并且其星形的架构降低了容错性。2021年5月,为了在不违反隐私法的情况下促进来自世界各地任何数据所有者的任何医疗数据的集成,德国波恩大学的研究人员联合惠普公司以及来自希腊、德国、荷兰的多家研究机构共同开发了一项结合边缘计算、基于区块链的对等网络协调的分布式机器学习方法——群体学习(Swarm Learning,以下简称SL),用于不同医疗机构之间数据的整合。这是一种分布式的机器学习方法,它结合了边缘计算,基于区块链的点对点网络和协调,同时保持机密性,从而超越联邦学习。
本文使用了7个不同的数据集来展示SL的应用。首先使用12000多位患者的外周血单核细胞转录组数据构成的三个数据集(A1-A3,包括两种类型的微阵列和RNA测序)来预测白血病,数据集构成如图1所示;其次使用全血来源转录组数据集(数据集B、D和E)来识别结核病患者;最后使用大型公开可用的胸部X射线数据集来解决多类别预测问题。这些数据集都是从公开的数据库或者与作者合作的医疗中心获取的,包含了不同的技术平台、样本量、疾病类型和严重程度等方面的异质性。研究将这些数据集分为训练集和测试集,并将训练集分配给不同的群体节点,模拟真实的数据分布情况。
相比于目前较流行的联邦学习方法,基于区块链技术的SL采取去中心化的方案,省去了专用服务器,通过Swarm网络共享参数,并在各个节点的私有数据上独立构建模型。SL提供安全措施,以支持通过私有许可区块链技术(图2)实现的数据主权、安全性和机密性(图3)。每个参与者都有明确的定义,只有预先授权的参与者才能执行事务。新节点的加入是动态的,通过适当的授权措施来识别网络参与者。新节点通过区块链智能合约注册,获得模型,并执行本地模型训练,直到满足定义的同步条件为止(图4)。接下来,通过Swarm API交换模型参数,并在开始新一轮训练之前,合并以创建具有更新参数设置的更新模型。
研究人员通过白血病、结核病、COVID-19三个案例说明了SL优异的性能。在白血病的预测中,SL在不同的数据分布、样本量、技术平台和疾病类型等情况下都表现出优于单个节点的性能。在结核病的预测中,SL在不同的样本量和疾病流行率等情况下都表现出优于单个节点的性能。在肺部病变的预测中,SL在多标签预测问题上表现出优于单个节点的性能。在COVID-19患者的识别中,SL在不同的样本量和疾病流行率等情况下都表现出优于单个节点的性能,且能够适应不同的年龄、性别和共感染偏差等情况。此外,SL还能够预测COVID-19患者的疾病严重程度。
综上所述,SL建立在两种成熟的技术上——分布式机器学习和区块链,是一种去中心化的深度学习框架,可以在不共享数据的情况下对机器学习模型进行分散训练,在性能与中心模型、联邦学习基本相同或更优的情况下,有效保护了数据隐私,提高了安全性,并且不需要大量的数据传输,所有参与的节点权力平等。因此,实用性极高的SL框架,在未来可能被广泛应用于包含大量离散的深度学习节点与具有一定隐私性、安全性要求的场景,大大推进精准医疗的发展。