投稿|《数据安全法》来了,隐私计算何处寻觅星辰大海?( 三 )


UCloud的安全屋作为上海普惠金融平台开放数据流通的重要解决方案,为普惠金融提供了较好的数据安全管控的基础,而其中的关键就是“数据沙箱技术” 。
所谓的“数据沙箱”,指的是一个虚拟环境,特点就是不能运行任何本地的的可执行程序,不能从本地计算机文件系统中读取任何信息,也不能往本地计算机文件系统中写入任何信息 。
那在这种特殊限制环境下,如何又让数据充分的为下游所用呢?
这就是“数据沙箱”的魅力,结合云平台和数据交换技术,提供访问控制、数据脱敏、安全审计、数据分级管理,在保证系统数据安全性的同时,实现数据价值挖掘 。
举一个例子,在UCloud的数据沙箱里,资源申请方通过数据沙箱对数据进行计算,得出所需计算结果,但却不触碰数据本身,严格确保数据的所有权和使用权分离 。
这一解决方案因为符合典型的政府提供公共服务的特性,后来被运用在多个地方政府的大数据服务项目中 。还有一个可想象的场景是,针对有跨境流通需求的数据,也可以使用安全屋解决方案,在不流通数据本身的情况下,有限定地输出计算结果,为数据安全流通监管提供技术支持 。
第二个场景,是医疗场景 。大家知道,医疗数据具有很高的价值,比如可以用于医保控费、保险精算、AI诊断算法的训练等,是现代医疗、医保体系都非常需要的数据源 。
但和第一类可汇聚、相对简单的公共数据来说,医疗数据的第一个特点是不可汇聚(可以简单理解为,数据分布在不同医院),在这种情况下,数据沙箱就无法解决问题了 。
无法解决的原因很简单,第一是医疗数据的隐私性极高;第二是,医疗数据的用途(保险精算、疾病研究)中对算法的复杂度要求不高,但由于是涉及生命的数据,所以对精度要求极高,这一点用数据沙箱无法完美承载 。
在这种进阶需求的情况下,安全多方计算被引入 。
安全多方计算起源于1982年著名计算机科学家姚期智提出的的“百万富翁问题”,简单说,就是在假设第三方不可信的前提下,如何安全地计算一个约定函数的问题,这其中的基础之一是密码学 。
考虑到篇幅,我们不再介绍更多的细节,简言之,安全多方计算上具有高度的数据安全,虽然在性能上会有一部分损失,但融合安全屋技术基础,可很好地满足跨医联体协同的问题,所以正好和这个场景下的需求,很好的对应起来 。
第三个场景,是数据源主要是多媒体影像的时候,这些数据的量很大,而且,一般都要引入AI算法,例如通过摄像头采集数据后,再进行动态影像的抽取和识别,这种情况下计算的复杂度会很高,不适合对算力性能有消耗的多方安全计算 。
联邦学习,又名联合学习、联盟学习,它的本质是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模 。
简单来说,两个机构各有一部分数据,比如腾讯有社交数据、阿里有电商数据,但是它们不能也不愿意把双方数据进行合并,联邦学习就可以通过加密机制下的参数交换方式,建立一个虚拟的共有模型,通过算法的分发,在数据不移动,不泄露,也不影响数据合规的前提下实现共同分析 。
同理,这种方式也适合不同的高校科研机构,例如对医疗影像资料等具备很高科研价值的多媒体数据开放流通 。
简而言之,UCloud安全屋从最初的数据沙箱技术演进为如今的三大技术平台,服务客户的领域也在不断扩大,从政府、金融,到医疗、教育等 。在这背后是各行各业对数据开放流通的态度在转变,越来越多行业愿意通过成熟的解决方案拥抱开放,通过加速数据流通创造价值 。

推荐阅读