近年来人工智能技术快速发展,如燎原之火般席卷全球,影响着社会的方方面面,例如医疗诊断的精准预测、金融风控的智能决策、智能家居的语音助手等。以 Transformer 架构为核心的大语言模型更将 AI 能力推向新高度:理解复杂语境、生成高质量文本和视频、甚至完成编程、设计等创造性工作。
机器学习即服务(Machine Learning as a Service,MLaaS)的快速普及,用户和企业可以利用集中的计算服务和基础设施来构建和部署模型,轻松地利用机器学习技术解决实际问题。在训练阶段,企业会将训练数据上传到云端进行模型训练,得到训练好的模型;在推理阶段,企业将预训练模型部署在云端,用户通过通过 API 调用服务时,输入问询请求得到推理结果。以上两种模式中数据的集中化处理模式存在巨大的用户隐私风险,在此背景下,隐私保护机器学习应运而生。
# 创建一个包含元素 [1, 2, 3] 的一维张量 x,用于表示向量或数组 x = torch.tensor([1, 2, 3]) # 创建一个包含元素 [4, 5, 6] 的一维张量 y y = torch.tensor([4, 5, 6]) # 将张量 x 和 y 对应元素相加,结果保存在张量 z 中 z = x + y
在使用 Crypten 时只需要将其修改为
# Crypten 创建一个包含元素 [1, 2, 3] 的一维张量 x x = crypten.cryptensor([1, 2, 3]) # Crypten 创建一个包含元素 [4, 5, 6] 的一维张量 y y = crypten.cryptensor([4, 5, 6]) z = x + y
Crypten 和 TF Encrypted 的实现原理是类似的,二者分别实现了一个与 PyTorch、TensorFlow 具有相同 API 接口的库,使得用户可以以最小的代价上手使用这两个集成了密码学技术的隐私保护机器学习框架。这两个框架的高层设计概览图下图所示,将输入的数据或者模型参数通过同态加密或者秘密分享的形式进行保护,将同态密文或秘密分享值输入到安全计算后段的安全计算协议中,执行安全计算协议得到输出结果的密文形式或者分享值形式,再通过解密或分享值重构算法恢复出明文结果。
3)SecretFlow-SPU
虽然 Crypten 和 TF Encrypted 通过模仿了现有机器学习框架的 API 设计,以隐藏底层的 MPC 密码细节,方便用户使用,但用户在将机器学习代码从 PyTorch 或 TensorFlow 中迁移过来时,仍需要替换一些 API 接口。蚂蚁密算科技隐语团队提出 SecretFlow-SPU[6],进一步弥补了隐私保护和机器学习之间的差距。
[1] Gupta, Kanav, et al. "Sigma: Secure gpt inference with function secret sharing." Cryptology ePrint Archive (2023).
[2] Knott B, Venkataraman S, Hannun A, et al. Crypten: Secure multi-party computation meets machine learning[J]. Advances in Neural Information Processing Systems, 2021, 34: 4961-4973.
[3] Srinivasan W Z, Akshayaram P, Ada P R. Delphi: A cryptographic inference service for neural networks[C]//Proc. 29th USENIX secur. symp. 2019, 3.
[4] Li, Dacheng, et al. "Mpcformer: fast, performant and private transformer inference with mpc." arXiv preprint arXiv:2211.01452 (2022).
[5] Zhang J, Liu J, Yang X, et al. Secure Transformer Inference Made Non-interactive[J]. Cryptology ePrint Archive, 2024.
[6] Ma J, Zheng Y, Feng J, et al. {SecretFlow-SPU}: A performant and {User-Friendly} framework for {Privacy-Preserving} machine learning[C]//2023 USeNIX annual technical conference (USeNIX ATC 23). 2023: 17-33.
END
💡 关于我们
阿里妈妈SDS(Strategic Data Solutions)团队 致力于用数据让商家和平台的增长战略更加科学有效。我们为阿里妈妈全线广告客户提供营销洞察、营销策略、价值量化、效果归因、隐私计算的技术服务。我们将持续在营销场景下的数据隐私安全和解决方案方向进行探索和落地,欢迎各业务方关注与合作。