一
计算机和互联网的发展,是过去五十年社会经济发展的主要引擎之一。它带来了前所未有的效率,产生了新的生产要素——数据,同时也有它的另一面——数据安全问题。
于国家和政府,于企业和组织,于个人,数据风险成为最重要的日常威胁。计算机和互联网带来的空前繁荣的数字经济,如果没有数据安全,将会陷入瘫痪和停滞。
数据安全的威胁,简要而言,可分为来自民间的威胁和来自权力机构的威胁。
对于来自民间的威胁包括数据垄断、数据泄露、数据窃取和数据贩卖等问题。比如,在数据垄断方面,基于数据垄断优势进行“二选一” “大数据杀熟”等,侵犯消费者权益的行为层出不穷。在数据泄露方面,除了媒体关注的一些典型案件,还存在大量的“暗泄露”。根据美国国防信息系统局的分析,绝大多数的安全泄漏(96%)没有被报告,因此根本就没有被检测到(雪莉.大卫杜夫《数据大泄露:隐私保护危机与数据安全机遇》)。
权力机构对数据安全的威胁,最典型的莫过于“9·11”之后美国情报部门的行为。美国在“9·11”事件后通过的一些法案,使情报部门在信息搜集和监控上的权力极度扩张。2011年1月,美国在犹他州建立了一个美其名曰“实现和保护国家的网络安全”的数据收集系统。这个设备的能力包括监控所有美国居民发出或收到的电话、电子邮件、短信、谷歌搜索或其他电子通讯(无论加密与否),所有这些通讯将会被永久储存用于数据挖掘。斯诺登曝光的棱镜计划和上游收集计划更是全面监控个人信息,斯诺登形容政府对个人的监控为“无所不嗅,无所不知,无所不收集,无所不处理,无所不利用,无所不合伙”。
数据安全问题的影响可谓无所不在,比如国际关系。斯诺登事件中就包含了美国情报机构对其他国家信息的截取;国家政局,剑桥分析公司事件深刻影响美国和英国的大选;商业运行,数据泄露问题引发了大量的商业危机,以至于网络安全保险成为一个重要的险种;个人生活,隐私问题成为个人生活中的最大隐患之一。
面对愈演愈烈的数据安全问题,全球主要国家都在加强立法和监管。2018年5月25日,欧盟《一般数据保护条例》通过,被称为人类史上最严格的数据隐私法律;2020年1月1日,美国《加利福尼亚州消费者隐私法案》生效,在保护隐私的同时,强调“数据的自由流动”和“数字经济的发展”;中国在2021年11月通过了《个人信息保护法》,对违法行为的行政处罚尤为严厉,情节严重的,最高可处5000万元或上一年度营业额5%的罚款,超过欧盟GDPR规定的4%。无论是为了满足法律和监管的要求,还是市场的需求,围绕数据安全,发展出一个越来越庞大的技术产业链。
隐私计算即是其一。
二
总有人在思考技术发展的另一面,这是幸事。几乎与计算机和互联网的发展同步,隐私计算的发展也已经历了40多年。
隐私计算技术是在保护数据本身不对外泄露的前提下,多个参与方通过协同对自有数据处理、联合建模运算、分析输出结果、挖掘数据价值的一类信息技术。
1978年,Rivest等人就提出了同态加密的思想,其愿景是使数据处理可以不经过解密,直接在密文上进行相应的计算,更好地保护数据全生命周期的安全。
1982年,时任加州大学伯克利分校计算机系教授的姚期智首次提出安全多方计算理论,后来他又提出了著名的姚氏混淆电路算法,理论上可以解决所有安全多方计算问题。
而联邦学习的原理最早可以追溯到1996年对分布式数据库的规则挖掘;可信执行环境的概念来源于2006年Open Mobile Terminal Platform (OMTP)工作组提出的保护智能终端的双系统解决办法。
经过几十年的同步探索,隐私计算在最近几年才逐步具备实用性。在互联网最需要它的时候,该来的还是来了。
作为跨学科技术,隐私计算涉及密码学、机器学习、神经网络、信息科学,同时可与人工智能、云计算、区块链分布式网络等前沿技术融合应用,为数据保护和价值融合提供技术可行性。
目前,隐私计算已经形成了三大技术流派:即分为密码学、可信硬件和联邦学习三个流派。以密码学为核心技术的隐私计算以多方安全计算、同态加密为代表;可信硬件以可信执行环境(TEE)为主导;“联邦学习类”泛指国内外衍生出的联邦计算、共享学习、知识联邦等一系列名词,是指多个参与方联合数据源、共同建模、提升模型性能和输出结果准确性的分布式机器学习。
根据本书的统计,截至2021年10月1日,全球有28个国家和地区、3000家公司参与了隐私计算相关专利的申请,合计1.72万件。从专利申请情况来看,目前中国隐私计算技术领先美日韩等其他国家,在全球TOP50企业中,中国有23家公司进入榜单。
几乎所有的BigTech公司都投入了隐私计算相关研发和应用。隐私计算的创业公司也获得资本青睐,据零壹智库不完全统计,截至2022年一季度,隐私计算初创公司累计获得72笔股权融资,公开披露的融资总额达到65.0亿元(16笔未透露金额)。
三
《隐私计算:数字经济新基建》呈现的就是隐私计算的早期画卷和探索历程。
第一,它已经并刚刚形成气候,从概念落地到应用,成为数据治理的主要工具之一。从行业应用情况来看,隐私计算技术正不断渗透各个行业和场景,除了在金融、医疗、政务等常见场景,一些公司还探索隐私计算技术在电网、审计、出行、酒店、民航、招聘等场景中的应用。
第二,它已是一个快速成长的产业,形成了几股势力,比如:
1.几大流派的学术和技术团队都分别培育出了自己的创新企业团队,其中相当一部分企业获得了风险资本的投资,目前成长速度较快。
2.BigTech凭借自己的技术、资金和场景优势,开展隐私计算的研发和业务,有的公司同时开展不同流派的隐私计算技术探索。
3.“集成商”,将隐私技术与现有的软件、硬件、数据服务等嫁接或集成,植入服务中。
第三,它还稚嫩:
1.技术的成熟度、便利度还有待提高。中国目前有超过2000家公司参与隐私计算专利申请,但是成功推出相关产品的仅部分公司,产品落地的速度还比较慢。
2.成本还比较高。目前大多数厂商目前还处于一对一地为客户提供解决方案的阶段,产品标准化程度大大提高,但是还没达到可以大批量复制的程度。所以隐私计算产品初期成本较高。随着产品标准化程度的提升,价格正在下降过程中,但是还没达到足够低的程度。
3.渗透率还不高。金融业是目前采用隐私计算比较积极的行业,但从机构数量和业务覆盖来看,渗透率都还不高,其他行业更低;鉴于效率、成本、成熟度等原因,许多机构对是否采购隐私计算产品仍处于观望状态。
4.数据流通市场的发展还不充分。让数据安全地流通,是隐私计算存在的价值。分析隐私计算市场的发展,要看数据流通市场的发展。目前数据流通市场的发展尚未成熟但进展很快。
5.对于很多人来说,它甚至还难以简明地理解。隐私计算产品要被市场接受,需要经历一个市场教育的过程。我们在调研中发现,不少金融机构的风控部门目前并没有意识到隐私计算能给业务带来多少提升。
6.无论是作为大厂的业务板块,还是独立的创业公司,隐私计算公司大多还在融资、亏钱,实现规模性盈利的不多;隐私计算公司的融资,也大多还在B轮或B轮以前的早期阶段。
7.从业务普及度和政策定位来看,“新基建”的地位还没有得到足够认可。数据安全已经成为“国之重器”,隐私计算也在一些产业政策文件中屡被提及,但作为数字经济新型基础设施的地位,需要时间和空间来证明。
四
隐私计算,集思想实验、科学理论、软硬件工程、商业价值于一体,直面互联网和大数据发展中的新问题,并把解决这个新问题,变成了一个广阔的市场,为数字经济进入下一程构建基石。