社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  区块链

白硕:区块链技术与数据隐私(附视频)

数据派THU • 6 年前 • 438 次点击  


本讲座选自中科院博士生导师白硕于2018年3月29日在清华大数据“应用·创新”系列讲座上所做的题为《区块链技术与数据隐私》的演讲。


以下为讲座现场视频,建议使用wifi观看: 




演讲全文:


白硕:非常荣幸回到母校,跟大家分享区块链这样一个非常热的话题。区块链在前面,隐私在后面,但是大家都知道中国人总是喜欢把修饰语放在前面,把中心语放在后面。信息发达到一定程度,中国人才把隐私的概念提到日程上。


但是这些年中国高速发展,很快就进入了要讲隐私的时候。恰好我们遇到了互联网,互联网很快地形成了一个数据寡头垄断数据的格局。没几年,这些大的互联网公司就非常有名,他们掌握的数据资源也非常雄厚。


美国对这件事有一个很有意思的评论:“互联网的pain,区块链的luck。”可翻译成“中国互联网之痛,区块链之幸。”


1、区域链能做什么?


区块链和密码学的结合,能给我们提供解决隐私问题数据寡头问题的希望。


2、什么是区块链?


区块链是一块一块的数据,一个一个的数据块。将具体的数据打包在一个区块里。


哈希函数的两个特点:


  • 单向性。单向性指知道这些数会算起来很容易,但是如果不知道这些数计算起来会非常难。

  • 抗插分攻击。自备量取值哪怕差一个比特,结果都面目全非,因此防止了你用一种猜测学习的方式把它猜出来。


正是因为有这样的特性,区块和区块之间逻辑上就连成了链。数据之间通过这样一种方式,逻辑上连成了链,这样的链叫做区块链。


3、区块链的本质


区块链的本质,有人说是去中间化,有人说是“躲开了央行,自己选择发行货币”。这些都不对,因为无法从技术层面上理解。


对于数据的诉求,实际上是技术方面的诉求。我们希望记下来的东西是不可篡改(撤销),不可仿冒,不可抵赖,不可乱序的。这四个是跟价值没有关系的,而且基础的非对称加密都似曾相似,如RSA、ECC等。但加入了不可透支和不可双花,就进入了价值转移、价值传输的领域。而价值是不同于信息的,价值有守恒性,信息可以不守恒。在价值传递、价值转移的领域里面,诉求可以归结为两点:


  • 不可透支,指没那么多钱,就不能买值那么多钱的东西,也就是余额和需要支付的额度之间有一个不等式的约束,不够就不能做。

  • 不可双花,指一分钱不能花两次。智能合约,可以理解为“让价值飞一会儿”,本质上是价值转移,转移到非你非我的程序手里。


另外,还有业务诉求,一个是隐私保护,一个是可运营性。


一部分人认为不当得利应该不算,但是我们这里有不可撤销,不可篡改的东西都已经存在,他们解决这个问题只有一个办法——就是分杈,即找到一个大家有共识的历史帐本,然后篡改剔除这笔,继续往前走。


另外一些人有一个口号叫做代码即法,写出来的法,你知我知,你认我认,你信我信。如果这样的话,代码写错了也得将错就错,甚至说我不承认写错了,黑客得就是应该他得。理念的不同导致整个帐本分裂了还不止,社区也跟着分裂了。


4、数据共享的痛点


普通老百姓的隐私被侵犯的情况很多,一些机构也有很多的数据。在进行合作的时候,顾虑最大的就是数据。


特别强调:在数据主权边界的附近会出现竞合两种关系,所谓的合就是大家有共享的需求,所谓的竞就是大家都要防范对方去偷自己的,不当使用或者滥用自己的数据。这是一个很大的痛点,这个痛点如果不好好的解决,信息化社会的弊就会大于利。


5、数据主权


  • 抗衡数据寡头的联盟制。加盟的机构,甚至个人,他们彼此之间一样有防范。区块链本身的深化应用也在呼唤隐私和数据主权保护的落地。

  • 既要见证又不看穿。只要我们技术再执着一点,即刻思维再执着一点,就会发现这个诉求不是不可能达到的。

  • 点对点、背靠背的数据合作。更多的是用在征信、评级等领域。我的数据是什么东西,我不告诉你;你想要什么,你不告诉我。我要的那个东西你看不懂,我给你的东西我也看不懂,但是那两个可以自动的匹配,如果匹配了,我没看见你的数据,你也没看见我的真实需求,这种叫点对点、背靠背的数据合作。

  • 跟人工智能的结合。这一波之所以火,主要归功于深度学习。深度学习做的事情是要数据喂它,它才能产生智能。喂它的数据可能来自四面八方,可能来自不同的机构,汇聚到一处,经过学习训练产生智能。


6、加密数字货币场景


现在有加密数字货币,如素数币、比特币、莱特币。人们想让数字货币既能够记帐,又不透露帐本的真实内容。首先民间有这个需求,有些账户到底转给谁了,留下来的记录就是查不出来。比如央行想推出法定的数字货币,张三给李四转账了,转账了多少钱,不能让旁边的王五看见,也不能做成像比特币那个样子,它的帐目不能是公开的,要保证隐私。欧盟体系,包括英国也有同样的看法。有这个看法的话,一定要引入隐私保护机制。


7、从错误印象谈起


有两种观点:


  • 区块链是公开透明的,但只是对账目而言。

  • 区块链是匿名的,但只是对地址而言。


所以,不能把隐私问题的希望寄托在现在的区块链技术体系上,需要有新东西。


8、账户问题


  • 一个地址的身份同一性无法掩盖。

  • 不同地址之间的关联交易无法掩盖。

  • 不同地址之间的趋同交易无法掩盖。


9、账目问题


  • 法律法规。比如证券交易规定交易信息不得泄露。

  • 个人权利。合法地主张个人权利,别人只能让你的权利得到满足。

  • 无关人回避。张三跟李四交易,王五要看,但是不看凭什么记帐,这是两边的纠结。



10、有效支付见证


  • UTXO模型。在比特币里面叫UTXO模型,它所谓的币就是一张一张的面额,可以去验证谁给谁、是不是真实的人。比特币的数据结构里面没有总的余额的概念,只有一张一张的支票,然后要现场算。只要可花之和大于它,就可以花。

  • 余额模型。在以太坊里面叫账户余额模式,即其余额已经算好。


11、交易后业务处理场景(假设)


按照目前的法律,中国结算的是最终的数据,是有法律效力的。交易所、证券公司也在记这些数据,但是如果遇到不一致的话,以中国结算的为准。如果这三方能够把账记在区块链上,在区块链上直接达成共识,到最后就是一笔账,非常清楚。但是,存在两点问题。


  • 生产关系。中国结算的法律定位跟其他两方不一样,如果大家平等记帐,就体现不了法律记帐。

  • 技术问题。中国结算和交易所拿到的是全本的账,证券公司只拿到自己客户交易的单边账。对账就会出现很多问题。


12、供应链溯源场景


很多供应链都涉及到溯源的问题,比如农产品、食品、药品。最初的源头沿着供应链,经过签字,一步步走下来,但是公开透明的话,有可能出现一种诉求,即上下游合作方不希望被透露。


13、穿透式采购供应链融资场景


穿透式的采购供应链融资场景,是一个龙头企业,拥有大量的采购。比如一个汽车公司,它可能有零配件、一级供应商、二级供应商。如果割断这些连接,光看这样一个小公司,它的财力不足,贷款就欠缺依据。但是如果通过穿透来看,它是来自龙头企业、有稳定的现金流的公司,就可以给它增信,使得它的信誉一下子得到它的背书。


在有区块链之前,通常增信只能做到一级,而不能多级穿透。有了区块链就可以多级穿透。在你资金不到位的时候,你可以拿着白条给你生产,但是白条最终会兑换出来资金。有了龙头企业的增信,银行就可以接受去做这个事情。上下游合作方同样有个诉求——白条分拆明细不希望被透露。


14、倒金字塔迷局


倒金字塔之谜,即少数公司能够得到散户的投资,而多数公司连专业公司都不会投资。没加入龙头企业的小公司,偿还能力比较稳定,但是有了龙头企业就可以把它们拎起来,利用金融领域里边熟知的一些方式来做。


15、数据交易


  • 大数据交易:数据是不守恒的,价值是守恒的。

  • 裸数据交易(伪命题):数据可复制,授权难掌控,卖数据只能是批量卖,很难去按需卖。


“裸”数据交易的痛点:


  • 扩散。卖出去的数据就像泼出去的水,收不回来。

  • 泄密。不是什么数据都可以卖,数据是有些区别的。

  • 权属。有些数据是谁的说不清。

  • 孤岛。数据窝在手里增值有限。


16、换个思路卖服务


目前大数据交易普遍存在的思路,就是我们不卖数据,而卖依托数据产生的服务。即把数据X、Y分装在私欲里面,卖的是函数,就是所谓的使用数据的服务。


17、数据API使用权交易


数据使用权是可以交易的,使用了一笔就卖一笔。但数据使用权自身存在问题,比如无法算清服务被使用了多少次。


加上区块链就可以变得更好。首先保持不卖数据卖服务的思路,然后计算服务被使用了多少次。明算帐,忠实记录,在线支付。


加上大数据交易,我们不交易数据本身,交易数据使用权。


18、数据融合


数据在封闭空间里面是原始数据,在开放空间里是经过了变形的,是函数处理过的数据。那么,在增值空间里,这两个函数就产生了所谓的数据融合的威力。


19、背靠背求交集场景


  • 竞争的基础条件:不能给对方看到全集

  • 双赢的基础前提:要能同对方共享交集


20、做法


一,不靠谱的做法:引入第三方。

二,没面子的做法:砸硬盘。


  • 步骤一,各带着硬盘,到一个中立的场合,使用一台做的比较干净的空机器,然后双方紧盯着源程序;

  • 步骤二,到现场,现场执行;

  • 步骤三,求出交集,砸掉硬盘。


三,高明的办法:互相加扰。


你的数据你加扰,然后我加。只要我们找到这样的加扰算子,就成功了。加扰跟先后顺序无关,可交换。有了智能合约,就可以有一个中立的对象帮你数。


21、控制场景


  • 入向边界控制场景:保险公司需要医院的数据,利用聚合特性,边界内外分段计算。在边界内的部分是可核查、可监督的。

  • 出向边界控制场景:滴滴这些平台公司都有一个相同的特点,是把所有的数据汇集起来在大平台上做一些全局性的匹配、调度、结算。利用无人运维的区块链有可能来做这件事情,但是会有一些风险。数据寡头的克星就是这个联盟,但这个联盟需要满足数据背靠背和平台是无人运营两点。但是确实需要一些技术。这和跨境的运营商之间的合作很像。


人们并不介意把数据给一个程序,只要人拿不走就行。


22、匿名评价场景:不刷单


很多人都在网上购过物,甚至自己都打过好评差评,但是我们知道,很多好评差评是刷出来的。评论机制也可以用在信用评分、信用评级和针对单位360度的考核上,但是都彻底地不记名。


23、CCP(中央对手方)方案


  • 转出方检查余额,维护余额;

  • 无关第三方支背书交易,不背书余额;

  • 转入方维护余额;

  • 监管方交易/余额看穿式管理。


24、隐私保护方案


  • 基于CCP的隐私保护方案

缺点是把决策权交给了中央对手方或者是公正人。隐私性是强的,但是中心化也强了。牺牲了去中心化的属性,去保障了隐私化的属性。

  • 基于Tear-off的隐私保护方案

Tear—off是留痕的,不同于密码学上的盲签名是签过以后不留根的。稍微有点区别。

  • 基于State Channel的隐私保护方案

State Channel,是状态通报。它启动和结算的账是明的,但是中间的明细是加密的。


25、密码学等相关知识


零知识交互与证明即在交互的过程当中,不透露任何的实体信息,但是让你相信这些实体的某种关系成立,而且确实成立,有理性的依据成立。


在同态映射下,先运算后加密和先加密后运算结果相同。在无法知晓实体内容的情况下,对实体间关系进行背书。


神经网络是机器学习的基础,深度学习无非就是多层的神经网络,甚至加上一些回路。神经网络经过同态映射之后,是可以在加密的状态下进行学习的。同态之后拿出来,就可以把大家的数据,在密文的情况下进行学习,学习完了再映射回去,这叫同态神经网络。人工智能黑白双杀,黑盒子看不见的是神经网络,能看见的是知识图谱。


美中不足的是,它们的工程实现效率还不理想。State Channel照顾了中心化的诉求,但是隐私性很差。CCP照顾了隐私性的诉求,但是去中心化差。所以这叫尺有所长,寸有所短。


26、这个领域其实有三种人


一种人在做算法,数据上纯粹"求索";一种人在做协议,逻辑上清晰"掌控";一种人在做系统,工程上可行"落地"。


27、开放讨论:被遗忘权


被遗忘权指的是我们现在有很多关于我们的信息出现在网络,想让它们不出现——做不到。区块链只能证明有,不能证明无。证明无,应该举证权倒置。


28、总结


  • 隐私和数据主权的保护确实意义重大;

  • 区块链+多方安全计算登场;

  • 落地场景多样化。


我今天的分享就到这里,谢谢大家!



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/aFkQlh7RRY
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/10266
 
438 次点击