开源|从蚂蚁可信隐私计算开源框架“隐语”看隐私计算发展挑战

近日,蚂蚁集团的可信隐私计算框架开源“隐语”的发布再次掀起了业界对隐私计算的高度关注。相对于起步较早的国外企业,国内在2016年才开始出现较为垂直的隐私计算厂商,不过,在数据要素安全流通的市场需求和政策需求的推动下,以及在产、学、研各界协同的促进下,中国隐私计算技术框架发展迅速,如今已具备从底层硬件环境到中间层联邦学习及安全多方计算等的能力,初具应用模型,并且已在金融、政务、电信等数据密集型行业落地。据艾瑞咨询报告,“2021年中国隐私计算市场规模为4.9亿元,预计至2025年将达到145.1亿元。”
而真正要达到这一规模,会面临非常多的挑战。
隐私计算发展面临的五大挑战 据中国银行业协会首席信息官高峰、中国信息通信研究院云计算和大数据研究所所长何宝宏、蚂蚁集团副总裁兼首席技术安全官韦韬等在“隐语”开源发布会上的演讲,透露出国内数据流通行业和隐私计算发展面临的五大挑战。
挑战一:确权难、监管难、互信难、定价难、入场难。
据韦韬介绍。确权难、监管难、互信难、定价难、入场难。是数据流通行业面临的主要挑战。其中,确权是数据流通全流程的开始,但数据要素作为一种新的生产要素,与土地、厂房、知识产权等有本质区别。数据确权未来将集中在持有权、使用权和运营权上。而互信难的原因是数据的易复制特性导致数据明文流通时一旦被复制,安全控制、项目能力等都会被击垮,价格底线也很难建立,类似这样的风险还有很多。
挑战二:安全性评估。
韦韬认为,安全性可以说是隐私计算的立身之本,但对安全性的评估一直隐私计算行业的难题,首先,保证产品的安全性,使它能够抵抗攻击就具备极大挑战,其次,以往的评估只是针对某个技术,而在未来要能够真正支撑行业技术设施的建设,一定是多种技术的融合与创新,否则,运行在所谓具备数据安全及隐私保护能力的技术设施上的数据,一经流通便会被“击穿”,对社会、国家、企业都会造成巨大损失。
挑战三:隐私合规性。
韦韬介绍,对于隐私合规的要求,各个国家存在差异。在我国,要在满足合规要求的同时灵活组合支撑国际范围内各种不同的要求,这对于中国技术生态走出国门携手更多合作伙伴是至关重要的。
挑战四:开源隐私计算技术应用的标准化。
高峰认为,如今,开源已发展到各个传统行业,并与各技术融合,在隐私计算领域,开源软件需要遵循相应的工作标准,包括流程标准、技术标准、应用标准、推广标准、法律标准及知识产权等。必须将开源软件标准化才能更有利于推广隐私计算技术与应用。
挑战五:强有力的可信隐私计算技术能力。
韦韬表示,从隐私计算的发展趋势看,在技术深度与行业需求的促进与推动下,数据将会从明文形式流通转变为以密态形式流通,而前提是具备强硬的技术支撑能力和相关技术设施。技术设施的作用是承载各行各业的不同应用,这对可靠性、适用性、安全性、性能、成本提出了前所未有的挑战。即使在隐私计算技术成熟的欧美国家,也尚未达到这样的发展阶段。不过,其发展方向是可预见的,可信隐私计算是其中最有潜力的方向。可信隐私计算理念繁杂,但可以确定的是,它在安全性、隐私保护性、可用性等方面符合设计预期,满足数据要素在流通过程中的需求方、提供方,以及不同场景的分级需求,其关键特征如安全可验证、过程可审计等可以同时满足数据要素浏览场景的隐私保护、可靠性、性能等要求。可信隐私计算的研发、生产与发展对整个行业而言同样具有极大挑战。
何宝宏认为,“可信隐私计算不完全是做安全保障的工作,它更是基于密码学创造信任的一个过程。我们要用技术、科技来创造信任,隐私计算显然是非常重要的一环。因为信任科技是用来强调队友,防队友的。谈机会、谈合作、谈未来,而安全主要谈的是当下,保护好秘密、财富。”
挑战六:技术路线多、开发成本高。
在隐私计算技术的开发过程中,开发者需要有一个技术框架,用来基于实际业务场景及功能来设计。实际情况是,如果开发者想使用联邦学习,那么就要使用A框架来做研发;如果想使用多方安全计算(MPC),那么又要使用B框架来做研发,如果想使用可信硬件,还要去熟悉所选硬件的架构才能真正开始使用。但现实的业务需求是,经常是需要多个技术一起来使用的,那么这时候就会出现繁琐、重复的开发工作量。
应对挑战的五个方案 隐私计算是兼顾数据安全和数据流通的关键技术,涵盖了密码学、系统安全、机器学习、可信硬件等多种学科,包含多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)、可信密态计算(TECC)等多种技术路线,涉及众多专业技术栈,要实现完善并保障安全并非易事。在数据密态时代各个行业各种场景的实际应用中,往往是多条技术路线相结合,单一的隐私计算技术框架难以适用于复杂和交叉的场景。如果每遇到一个新场景,都需要从头开发,不但技术资源重复浪费,而且数据安全和隐私合规很难保证,成为了隐私计算大规模落地应用的阻碍之一。
对此,蚂蚁集团从2016年开始推进隐私计算技术及其规模化应用,并在研发与实践中探索了多项解决方案。
方案一:严格进行安全评估。
于隐私计算而言,安全的重要性不言而喻,一方面,据韦韬透露,他们在开发“隐语”框架时,提出了第四级深度检验级的要求,要通过两个安全攻防的专业团队背靠背做一个月及以上的安全评估,并且未发现中高级安全漏洞,才能投入行业应用。该要求远远超出了目前的商业测评认证强度,但由于成本极高,且不同场景有不同的需求,因此在全行业推动发展时并不会要求所有技术都通过该要求。具体实施时,可分为三个安全验证阶段:开发阶段只需告知安全指导原则,不要给开发人员太多限制,以免丧失创新;待验证发布阶段,需要有非常严格的流程保障,比如做好安全验证;在公测开源阶段对代码贡献者进行悬赏,鼓励开发者寻找问题和漏洞,以及定向邀请开发者解决复杂问题,共同保障安全性。这三个阶段完成后才进行专业安全团队的测评,最后投入行业使用。另一方面,通过安全多方计算等算法技术保障数据提供方与数据消费方的安全权益。
方案二:各界协同推进隐私合规。
合规的标准很难界定,据悉,中国信通院将发布《隐私计算技术应用合规指南》,为企业提供法律、法规及合规标准的指导。不过,据中国信通院云大所大数据与区块链部副主任闫树坦言,合规性不仅是一个技术问题,而是需要技术、产业应用、政策法规及监管等各方齐头并进、相辅相成才能解决的问题。
方案三::丰富产业应用。
由于不同场景对安全性、性能、功能、易用性、稳定性的诉求不同。如何让不同诉求都得到满足?“隐语”框架负责人、蚂蚁集团隐私智能计算技术部总经理王磊认为可以从三条思路来分析。
第一,对于不同场景的安全性和性能需求,采取折中方案。安全不是免费的午餐,安全性提升后必然带来性能和精度的下降。在很多场景中,要明确安全假设,比如是否相信可信环境、是否存在可信的第三方,以及参与方是否会共谋。基于假设就可以选择更合适它的解决方案。
第二,在理想的解决方案中,隐私计算的功能是完备的,但在真实业务场景下,数据处理链路非常长,机器学习只是流程中的一个环节。在机器学习之前的数据加工和分析,以及在机器学习训练建模之后的模型服务化、在线化。难度都不亚于机器学习。“隐语”的解决方案是,提供从数据分析到机器学习建模的全流程方案。以MPC的解决方案为例,在MPC的用户做数据处理时,可以用MPC的SQL做数据分析和探查,构建自己的人工策略,用机器学习的算法去做机器预处理及机器建模。然后把获得的模型及人工策略部署到线上,变成在线化的服务,为业务去提供价值。
第三,在业务的不同周期对易用性和稳定性的需求不同。一个业务从无到有的建设过程中大概会经历两个阶段。业务会先做一个POC的概念验证,在此阶段业务对隐私计算的需求是低成本地快速试错。当POC的概念验证通过后,就希望隐私计算能够大规模地在生产环境落地,在该阶段,业务更关注系统稳定性、高可用。在隐私计算领域,稳定性与高可用十分复杂。举个例子,在线服务升级时是不能停服的,要热更新,这涉及灰度更新机制,但隐私计算的服务涉及很多机构共同的服务,如何让各个机构更好地协同以实现灰度化?对于众多机构的不同版本,如何进行兼容性的保证?“隐语”的解决思路非常朴素,希望充分利用在传统集中式环境中沉淀的稳定性和高可用的解决方案,与隐私计算的环境充分融合。因此,首先将各机构的底层基础设施差异性屏蔽,并建立统一的资源网络,基于此,使用传统的稳定性和高可用保障经验。
方案四:提升隐私计算能力。
提升隐私计算能力最快捷的办法是让更多的专业人才低成本地参与隐私计算的技术贡献,形成合力。开发人员可以分为了三类,分别是应用系统开发者、机器学习算法开发者、安全协议开发者。这三类开发人员参与贡献可以获得哪些能力和价值呢?
对于应用系统开发者来说。隐私计算系统在业务中大规模应用时,不可避免地要与业务系统做深度集成才能使用。在此过程中的常用方式是单独部署一套隐私计算系统,通过API对业务平台调用,在业务平台上做大量开发使流程运行,但如果想做到业务模块好用、易用,就需要做大量的工作。比如,在建模的场景中支持可视化拖拉拽的项目,这时就需要有大量的开发人员。在蚂蚁集团,“隐语”团队和前端团队充分协作,在“隐语”框架中提供了前端的原子化能力,业务方只需通过拖拉拽的方式构建具有原子化能力的模块,并将该模块集成到业务系统中就能极大地降低用户开发成本。
【开源|从蚂蚁可信隐私计算开源框架“隐语”看隐私计算发展挑战】机器学习的开发者通常对隐私计算的理解不够深入,比如,不了解MPC、TEE等,只想写一个机器学习算法。“隐语”框架做了两层抽象,满足了这样的想法。下层是密文计算引擎的抽象,所有的计算都在“黑盒”中进行,不会对外展示和泄露。MPC、TEE、同态加密等都是属于密文计算的范畴。在密文计算的引擎上直接对接Tensorflow JAX Pytorch等,机器学习的开发者就像写传统机器学习算法一样开发隐私计算中的算法,通过边缘计算技术将其编写成密态算法。上层是基于PyTorch的明密文混合计算。当机器学习的开发者进入业务场景后会发现一些计算的安全性要求并不高,因此将这些计算从密文环境中转移至明文环境,通过安全退让可以大幅提升算法性能。
安全协议开发者或安全算法开发者在隐私计算领域较为少见,但也非常重要。他们的主要工作是制造一个性能更好的“发动机”,当“发动机”制造好后,理想情况是他无需再制造“一辆车”,因为无论从专业性角度还是人力消耗角度,成本都非常大,所以,“发动机”能够直接在“每辆车”上替换是最理想的结果。
方案五:开源。
现阶段隐私计算还属于相对前沿的技术,虽然围绕其发展的讨论与探索热度在持续走高,距离实现大规模的落地应用还任重道远,在“功能全面性”“降低技术门槛”“工业化规模”“互联互通”等方面都还有很大的上升空间。
开源本身是将技术工具共享,可以促进技术共建,加速隐私计算技术的发展,同时,开源也会让隐私计算的安全问题变得更加透明,对未来隐私计算的规范起到积极地促进作用。在未来,隐私计算技术的安全、效率和性能会得到平衡和兼顾。通过隐私计算贯通各主体、各领域、各行业的数据资源,可以形成一个完整、安全的数据共享生态体系,从而将数据要素的市场化红利分给各个行业。同时,开源作为一种创新的协作方式,可以汇聚合力,为数字文明时代技术创新降本增效。
此外,开源软件的优势在于可供开发者灵活选择,开发者可以简单、快速上手,大大降低了算法、研发技术人员使用隐私计算技术的门槛。

    推荐阅读