区块链与机器学习模型共享

人工智能已取得重大进展，但是访问和利用机器学习系统使这些发展成为可能会面临挑战，特别是对于那些资源有限的人而言。

这些系统往往是高度集中的，它们的预测通常按每个查询出售，而训练它们所需的数据集通常是专有的，而且要自行创建也很昂贵。此外，如果不定期提供新数据来对其进行再训练，则已发布的模型可能会过时。

我们设想一种稍有不同的范例，在该范例中，人们将能够使用他们已经拥有的技术（例如手机和其他设备上的浏览器和应用）轻松且经济高效地运行机器学习模型。本着使AI民主化的精神，我们在区块链上引入去中心化和协作AI。

通过这个新的框架，参与者可以在公共区块链上持续协作地训练和维护模型，以及建立数据集，在这些区块链上，模型通常可以免费用于评估预测。

该框架非常适合人们每天遇到的AI辅助场景，例如与个人助手互动，玩游戏或使用推荐系统。

为什么选择区块链？

利用区块链技术，通过该框架可以完成两件事：为参与者提供一定程度的信任和安全，并可靠地执行基于激励的系统，以鼓励参与者提供有助于改善模型性能的数据。

使用当前的Web服务，即使代码是开源的，人们也无法100％地确定与之交互的内容，并且运行模型通常需要专门的云服务。

在我们的解决方案中，我们将这些公共模型放入了智能合约中，在区块链上进行编码，以帮助确保遵守约定条款的规范。在我们的框架中，模型可以在链上进行更新，即在区块链环境内进行更新，只需支付少量交易费用，或将其用于链下推理（在个人设备上本地进行，无需交易费用）。

智能合约不可修改，许多机器都无法对其进行评估，从而有助于确保模型能够执行其指定的功能。智能合约的不变性和永久性记录也使我们能够可靠地计算并提供对良好数据贡献的奖励。

在处理付款时，信任非常重要，尤其是在像我们这样的系统中，这种系统试图通过激励措施鼓励积极参与（稍后再介绍）。此外，以太坊等区块链在全球拥有成千上万的去中心化机器，这使得智能合约变得完全不可用或脱机的可能性较小。

部署和更新模型

根据区块链网络的计算成本，在公共区块链上托管机器学习模型需要一次性的部署费，通常为几美元。从那时起，任何提供数据来训练模型的人，无论是部署模型的个人还是其他参与者，都将不得不支付少量费用（通常为几美分），这再次与完成的计算量成比例。

使用我们的框架，我们建立了一个Perceptron模型，能够对电影评论的正面或负面情绪进行分类。截至2019年7月，在以太坊上更新模型的成本约为0.25美元。我们已计划扩展框架，以使大多数数据提供者不必支付这笔费用。例如，当数据来自使用第三方技术（例如游戏）时，贡献者可以在奖励阶段获得报销，或者第三方可以提交数据并代表他们支付费用。

为了减少计算成本，我们使用非常有效的训练模型，例如Perceptron或Nearest Centroid分类器。我们还可以将这些模型与链外计算的高维表示形式一起使用。可以使用从智能合约到机器学习服务的API调用来集成更复杂的模型，但理想情况下，模型应在智能合约中完全公开。

激励机制

区块链很容易让我们共享不断发展的模型参数。新创建的信息（例如新词，新电影标题和新图片）可用于更新托管的现有模型，而无需考虑特定个人或组织自身更新和托管模型的能力。为了鼓励人们贡献有助于维持模型性能的新数据，我们提出了几种激励机制：游戏化，基于市场的预测以及持续进行的自我评估。

游戏化：就像在Stack Exchange网站上一样，数据贡献者可以在其他贡献者验证其贡献时获得积分和徽章。该提议仅取决于贡献者为实现共同利益（模型的改进）而进行合作的意愿。

基于市场的预测：使用特定测试集进行评估时，如果贡献者提高了模型的性能，他们将获得奖励。该提案以现有工作为基础，使用预测市场框架来协作培训和评估模型，其中包括“众包预测问题的协作机制”和“消除私有数据的市场框架”。

在我们的框架中，基于预测的市场激励包括三个阶段：

1. 在承诺阶段，提供者需要下注以奖励给贡献者，并共享足够的测试集以证明测试集有效

2. 参与阶段，参与者以少量的资金提交培训数据样本，以弥补其数据不正确的可能性

3. 奖励阶段，提供者展示其余测试集，而智能合约确认其与承诺阶段提供的证据匹配

根据参与者对模型改进的贡献来奖励他们。如果模型在测试集上的表现更差，那么贡献“不良”数据的参与者将失去其存款。

持续进行的自我评估：参与者有效地验证并为良好的数据贡献相互支付。在这种情况下，将部署已经使用一些数据训练的现有模型。希望更新模型的贡献者提交具有特征x，标签y和存款的数据。在经过预定时间后，如果当前模型仍与分类一致，则此人将退回其定金。

现在，我们假设数据已被验证为“良好”，并且贡献者获得了积分。如果贡献者添加了“不良”数据（即无法验证为“良好”的数据），那么该贡献者的存款将被没收，并分配给因“良好”贡献而获得积分的贡献者。这样的奖励系统将有助于阻止“不良”数据的恶意贡献。

从小型高效到复杂

区块链上的分布式和协作式AI框架是基于共享模型观点的，使所有人都可以使用有价值的资源，以及（同样重要的是）创建可用于训练区块链环境内外模型的大型公共数据集。

当前，该框架主要设计用于可以有效更新的小型模型。随着区块链技术的发展，我们预计将有更多的人与机器学习模型之间的协作应用程序可用，并且我们希望看到将来在扩展到更复杂的模型以及新的激励机制方面的研究。

格密链公司正在研究密文机器学习模型的训练，以及如何基于区块链发布机器学习模型，从而共享数据与模型的使用。

往期推荐

第十七届保密通信与安全技术学术年会

社交信息工具的演化：从信件、Email、QQ到微信

瑞士发布稳定币官方指南，这对Libra意味着什么

第七届密文计算与同态加密应用国际会议接受论文

2019年IDASH保护隐私安全的基因分析竞赛内容

生物特征数据库导致数百万用户的数据泄露

PySEAL：一个全同态加密的Python接口库

2019年同态加密标准化会议召开

▼

欢迎收听“区块链杂谈”节目，国内最有质量的区块链知识分享节目。

◆ ◆ ◆ ◆ ◆

格密链

专注于区块链上的密码学技术

长按扫码可关注