目前我国已进入数字化的经济时代,数字化的经济已成为带动中国经济稳步的增长的核心动力,据《中国数字化的经济发展与就业白皮书(2019年)》数据,2018年我国数字化的经济规模达到31.3万亿元,占GDP比重为34.8%。推进数据资源开放共享符合技术发展的新趋势,大数据产业生态体系建设已经初见规模。虽然当前我国在大数据发展和应用方面已具备一定基础,数字生态正在加速形成,但是数据割据、数据孤岛现象依然严重,数据开放共享程度仍然不足。
数据生态(Data Ecology)是结合生态体系和大数据两个不相同的领域的特点所产生的新概念。如图1,在证券行业中,数据生态体系主体包括了监督管理的机构、交易所、证券公司、登记结算公司、资管期货公司、基金公司等;涉及到的关键数据包括客户数据、用户数据、产品数据、交易数据、监管数据、市场数据、营销服务数据等;数据的生命周期又通常包括了数据的产生、采集、存储、流通、使用、销毁等;从数据不同阶段的使用角色上看,又涉及到了数据源方、数据所有人、数据需求方、数据服务方等。这些不同主体,不一样的角色围绕着数据这个核心资源相互制约、相互促进,进而形成证券行业数据生态的有机整体。
当前证券行业金融机构普遍未深刻领会数据开放共享带来的价值,都希望获取外部数据,但是不愿意共享自身数据资源。比如在场外衍生品业务中,金融机构必须了解到交易对手在全市场的相关业务集中度以进行信用定价和风险控制,然而由于信息共享平台和信息共享理念的缺失,没有办法进行行业内的集中度信息共享,最后导致盲目授信,出现了同时爆仓的情况,造成了重大利益损失,究其根本,还是缺乏进行数据共享以互利互惠的理念。
一是,金融机构担心加入信息共享系统后自身数据被系统的建设中介或别的行业竞争对手获取,从而造成自身核心利益的受损。二是,中小型金融机构因自身行业地位及IT建设能力薄弱等原因,亦担心加入信息共享系统后处于不平等的弱势地位。三是,针对信息共享的价值,缺少市场化的激励机制,而该激励机制的设计、实现、执行、兑付难以由传统中心化系统来完成,若发生信息交易记录被恶意篡改的情况,将引发信用危机。
数据脱敏是目前应用最为广泛的传统隐私保护技术,它是按照一定规则对敏感数据进行变形或替换处理,以达到隐藏敏感数据的目的。但是在数据生态场景中,将脱敏后数据完全共享暴露仍然是不安全的,本文提出使用安全多方计算技术来解决多源数据计算场景下数据的隐私安全问题,后文将详细阐述。
对于个人隐私信息保护和向第三方传输数据的合法条件,我国在多个法规条例文件中早已有所表述。无论是国外还是国内的相关法律,其内容具有一致性:经用户授权以及安全风险评估后,数据服务方可以向第三方传输有关数据。然而,现实场景中,用户的数据托管在机构后,机构就间接获取了用户数据的主权,使得在用户未授权的情况下,机构滥用客户数据的情况屡有发生,行业数据生态建设旨在汇集整合行业各机构海量数据,海量数据意味着平台未来潜在的巨大价值,这对系统的安全性提出了更高的要求。
区块链本质上是一个分布式账本,以块链式结构和分布式存储保证数据不可篡改以及无法抵赖,使用密码学技术保证访问和通信安全,通过共识机制保证多方数据的一致性。现在已经从单纯的技术探索走向了应用落地的阶段,典型的应用涉及数字货币、跨境支付、登记结算、数据存证、供应链、物联网等多种场景。
区块链技术体系中的分布式存储、密码学原理、共识机制、P2P网络等多重技术特性保证了区块链上的信息既公开透明又能保护隐私,通信信道即使暴露在外也能保证数据的不可篡改,参与方既可以共同参与决策又可保护自身利益不受侵犯,极大地提高了价值交互的效率。
数据生态与数据安全犹如一体之两翼、驱动之双轮,只有完全解决数据隐私保护问题,数据孤岛问题才能根本解决,数据共享的创新业务场景才能真正的完成,下面结合区块链及密码学有关技术,论述区块链相关隐私保护方案。
目前市场上针对区块链隐私保护问题,提出了多项技术,其中最主流的有:数据脱敏、零知识证明+同态加密、SGX可信执行环境技术、安全多方计算技术。
安全多方计算(MPC:Secure Muti-Party Computation)研究由图灵奖获得者、中国科学院院士姚期智教授在1982年提出,多个持有各自私有数据的参与方,共同执行一个计算逻辑(如:求最大值计算),并获得计算结果。但过程中,参与的每一方均不会泄漏各自数据的计算,被称之为MPC计算。
安全多方计算所要确保的基本性质就是:从计算执行期间发送的消息中不能推断出各方持有的私有数据信息。
在本文中,安全多方计算相对于其他技术具有以下几点优势:一是数据不出域,更符合应用场景;二是适用于证券行业的半诚信场景;三是国内研究深入,目前已有一些通用解决方案。
下面以黑名单共享应用为例,说明安全多方计算技术在证券行业数据ECO中的应用原理。
使用Paillier概率公钥加密算法,实现数据隐私保护,Paillier满足加法和数乘同态,其实现过程如下:
假设A是黑名单数据查询方,B是数据拥有方,A有一对paillier的公私钥,公钥记为pub,私钥记为priv。
A查询的黑名单数据是a,b是B里面的某一条数据,数据a和b按下列步骤进行比对:
一、A将pub和c = pub(a)发给B。paillier算法有随机因子,每次运算pub(a)结果都不一样,B无法猜测查询数据。
四、A用自己的私钥priv对收到的CB1、CB2进行解密,得到的结果是ax+y和bx+y,比较这两个数即知道数据a与数据b的是否相等。相等的话返回“=”,不相等的话返回“≠”。
五、若比较结果为“=”,则表示B的数据库中存在数据a,终止比对过程。若比较结果其他,继续比对B的其他数据,直到结果为“=”,或者所有数据都经过了比对。
若结果为“=”,则表示数据a和数据b相同,即说明A所查询的数据在B的黑名单数据库中同样存在,停止a和B其他数据的匹配工作。否则,继续执行数据比对。
为了提升黑名单共享的数据比对效率,使用此算法进行安全多方计算时能够正常的使用并发、批量数据对比的方式。例如,每次对1000条数据来进行批量比对,以此减少数据包发送的频率,降低对网络的使用频率。查询时,可以同时对多家券商发起数据查询申请,降低黑名单信息查询花费的总时间。
虽然paillier的加解密复杂度较高,但是密文的同态操作减少了大量的加解密次数,所以次数不多的加解密耗时是可接受的,且密文的同态操作避免了读取用户明文形式的秘钥份额。当有多个节点离开或者加入时,基于同态技术的批处理秘钥分发方案以其较少的加解密开销将更具有优势。
Paillier公钥密码体制公钥为(n,g),n=pq,私钥为。仿真分析中,分别生成了n为64位,128位,256位,512位和1024位秘钥,相应的产生g和λ,从而生成整个加解密过程中所需要的公钥和私钥。由于生成的秘钥n的长度慢慢增长,所以生成过程中所需要的运算量也逐步增加,而且增加的速度也逐渐上升,如图所示:
上图给出了在秘钥n为64位,128位,256位,512位接1024位的情况下加密32bits数据所消耗的时间,随着秘钥n长度的逐渐增加,加密和解密过程中所消耗的时间也逐渐增大,加密和解密过程中的运算量逐渐增大。
如图所示,在n分别为64位,128位,256位和1024位时,已知E(x)和E(y)的情况下,通过paillier公钥密码体制的加法同态特性可以求出x+ymodn,另外当已知x和E(y)时,也可以求出E(xymodn),其中x和y均为32bits数据,消耗时间如上图所示。
在黑名单场景中,数据源方和数据查询方会交互多次,数据查询方会一直进行比对,直到结果为“=”,或者所有数据都经过了比对。而每一次的比对都会利用paillier算法,故最后黑名单场景整体的复杂度是单次paillier比对的n倍,即n*O(n),这里的n代表的是数据源方数据的数量,或者是出现“=”时的已经匹配过的个数, 其性能与n的大小成负相关,即n越大,性能越低。
在金融、政务等重点领域,身份认证环节有着举足轻重的作用,由它完成用户物理身份和数字身份的转换。随着人脸识别、区块链分布式技术的成熟,分布式身份认证系统得到了发展,本文所使用的实体身份认证方案是基于区块链技术建立底层平台,使用人脸识别技术,接入权威的身份认证节点(例如公安部一所的人脸识别区块链节点),可以自动、快速、合法的完成实体身份的认证,区块链技术能对身份认证进行全流程记录,以此达到身份认证的合法合规性,方便后续开展业务。而随着用户对身份控制和自我保护意识的增强,数字身份先后产生了四种形态:分别是中心化身份、联盟身份、以用户为中心的身份和去中心化身份(DID)。由于前3 个阶段的数字身份或多或少在安全性上存在隐患,由此 DID 就应运而生了。
去中心化身份(DID)利用区块链技术实现让数字身份真正为用户所拥有并支配,就像我们把身份证、护照、户口本这些纸质文件放在自己家里小心保存,只有在需要的时候再拿出来一样,不再有任何中间人(即使是 DID 技术供应商)接触拥有控制用户的身份和数据。
为了保证DID的唯一性,DID是按照身份证信息进行计算的,通过加密算法避免反向破解使用户信息泄露的风险,为增加证券行业数据生态系统的公信力,DID由中立的第三方机构负责执行具体运算过程。基于DID可实现分布式用户个人信息标识共享、可信数据交换、安全多方计算等一系列应用,还可实现用户对数据共享进行授权管理。
一、具有唯一性,它是由不可更改的用户身份信息按照一定的规则生成,在数据共享系统内是唯一的。
二、可以避免反向破解,首先计算规则只有第三方中立节点知道,只能由第三方中立节点根据身份信息计算出DID,但不可以由DID反向推出用户身份证号码。
三、具有公开性,DID在链上是公开的,用作信息上链、信息存储、信息查询。
四、各券商基于用户DID进行信息的共享和维护,用户可以对个人数据权限进行控制。
本文使用的可验证授权凭证属于自定义凭证,是用户管理个人信息的工具,用户通过授权文件的签署、验证达到管控个人信息的目的。它是利用区块链不可篡改的特性,将用户授权的过程记录的数据Hash上链,再加上授权的目的、数据申请方的签名,确保授权的合法性、真实性、可验证性。
本文参考了微众银行WeIdentity关于可验证凭证的思路。可验证授权凭证是基于W3C规范生成的,可以把用户DID、授权时间、授权方式、授权对象、数据源方、数据使用方、数据类型、目标用途等与授权有关的数据标准化和电子化,通过将原始数据的Hash上链,附上数据使用方的权威签名之后,即可生成可验证、可交换、不可伪造的授权凭证(Credential)。在各券商之间,授权凭证可以互通互认,从而实现用户对个人信息全平台的授权管理。
WeIdentity是一套微众银行自主研发并完全开源的实体身份标识与可信数据解决方案,可承载实体对象(人或者物)的现实身份与链上身份的可信映射、以及实现实体对象之间安全的访问授权与数据交换。
基于区块链安全可信的特性搭建行业数据可信共享平台,以实现数据的可信流通及安全管理,该平台可提供数据可信记录。在DID场景下区块链记录数据包含实体身份认证过程、DID生成过程、用户数据、授权过程,在安全多方计算场景下区块链记录数据包含数据调用过程,数据计算过程等。区块链提供基础算法服务,如加密算法(RSA、ECDSA、SM2、SM3、SM4等)、计算函数(求和、求余等)等。
基于区块链实现分布式身份识别系统,使用人脸识别技术,接入权威的身份认证节点(例如公安部一所的人脸识别区块链节点),可以自动、快速、合法的完成实体身份的认证,区块链技术可以对身份认证进行全流程记录,以此达到身份认证的合法合规性,方便后续开展业务。
用户通过权威机构完成实体身份认证,区块链智能合约自动生成用户唯一数字身份标识(DID),该DID保存与区块链分布式账本中。通过 DID,用户可以向访问的系统提供有限的信息,该过程称为‘用户授权’,用户授权过程基于区块链智能合约实现,授权过程在区块链账本中进行可信记录。
本系统结合了实体身份认证,DID身份唯一标识,实现了用户数据的分布式标识体系,系统可以兼容传统数据库,实现数据的检出与上链。各券商可以通过区块链数据ECO进行数据查询,数据访问申请,用户可以通过刷脸等方式基于DID对个人信息进行可验证授权凭证的管理。在用户个人信息共享的基础上,数据生态系统还支持券商进行安全多方计算,在保护用户隐私的前提下,通过智能合约的协作,在各券商之间进行数据共享,提升数据价值。
安全多方计算的实现依赖于特定的算法及执行流程。随着应用场景的不断丰富,安全多方计算算法的不断研发,可根据实际的数据交互需求,开发并部署不同的区块链智能合约,基于区块链智能合约实现更多的隐私数据共享方式。
隐私数据在本地进行处理,处理后的数据发送的区块链系统,调用区块链智能合约,智能合约完成数据的验证和交互,数据需求方获得到数据提供方提供的处理后的隐私数据,在本地完成后续计算过程。通过该种方式形成一个去中心化的,可信任的数据隐私交易市场。该市场中所有数据交互(交易)过程,均会在区块链分布式账本中进行完整、可信的记录。
区块链数据生态系统是在原有业务系统的基础上工作的,可以和传统系统无缝对接。区块链网络由区块链节点组成,包括Peer节点、Orderer节点和Kafka节点。区块链网络以块链式的分布式账本实现对数据指纹和数据交互过程的记录,并运行智能合约以规范上链数据的格式和数据交互的流程,并实现权限控制。
数据生态系统的主要流程包括数据上链、数据共享以及安全多方计算,结合了实体身份认证、DID,实现了分布式用户数据共享。生态系统的参与券商可以通过此系统进行数据查询,数据申请,用户都能够基于DID对个人隐私信息的共享进行授权。在数据共享的基础上,还可引入相关算法,通过安全多方计算,提升证券行业整体数据的价值。比如黑名单信息共享可以帮助各个券商充分识别风险,降低业务损失的风险。
数据上链。数据共享与协同过程中,需要在信息泄露最小的情况下,保证数据的可信度。通过数据指纹上链的方式,可实现对数据内容的有效锚定。数据指纹通常是计算原始数据的hash值,其特性是同一条数据内容计算得出的数据指纹是唯一的。
信息查询。通过区块链节点提供的查询服务对DID进行查询,数据使用方可以查看通过区块链检索到的数据,并从中选择需要发起数据共享请求的部分。
用户授权。数据使用方应向用户发起信息访问授权申请,用户通过扫脸识别、指纹等手段验证身份并进行授权,全程通过区块链进行记录,并生成可验证的授权凭证,加上数据使用方的机构签名之后,向数据持有方发起数据请求。
在数据ECO中,确认各参与方的身份及权限是十分重要的。首先,对数据发布方的身份必须进行有效的验证,才能保证数据的可信度和有效性,否则存在数据质量不合格的风险,后续数据交互也无法有效开展。而如果对数据使用方的身份不进行严格的验证,则无法控制数据的应用限制范围,有可能导致数据泄露,造成更大的损失。
因此,本系统使用区块链技术作为数据共享平台底层的账本机制,只有获得指定CA证书的参与方,才能加入网络,并按照证书许可的权限范围,参与数据共享与数据协作的过程。
尽管区块链上不可篡改的记录可以理清数据共享与协同过程中的各方权责,但随着数据的重要性日益突显,对数据真实性引起的纠纷也是不可避免的。为了可以有效地处理这类纠纷,在建设数据共享与协同系统时,预先考虑了与司法体系对接进行数据存证。
目前,经过认证的区块链数据可当作包含时间的、确保内容完整性的证据。在具有司法效力的机构如公证处、司法鉴别判定中心等机构间搭建一条具有公信力的证据链,并将业务链(如数据交互区块链)上发生的所有交易的数据指纹锚定在证据链上。在发生争议时,业务链上的交易记录可以对数据内容、发生时间等进行证明,而证据区块链上的数据指纹可以为业务区块链上的数据提供完整性背书,并根据参与节点在司法体系中的职能,提供公证书、鉴定报告等易于被司法程序所采信的证据。
本系统将基于区块链打造安全多方计算网关,允许各个参与方在不暴露原始数据的情况下,获取基于联合数据的计算结果。各个参与方在安全多方计算中的关系如图4所示:
安全多方计算的实现依赖于特定的算法及执行流程。随着应用场景的不断丰富,安全多方计算算法的不断研发,可根据实际的数据交互需求,开发并部署新的智能合约,实现更多的数据共享应用方式。
本文创新性的提出了使用区块链技术来搭建行业数据生态,并同时使用了安全多方计算、分布式身份标识DID、可验证授权凭证等技术来解决传统数据生态建设面临的数据共享、数据协作、隐私保护等难点问题,具备极其重大研究和实践价值。
使用区块链技术来实现不同机构、不一样的角色在无需中间代理机构的情况下大规模、安全的进行分布式数据共享。这种开放式、无中介、分布式的数据生态体系对行业的发展具备极其重大的意义:
对个人来说,数据主权有史以来第一次真正掌握在自己手中。通过结合分布式身份标识DID和可验证授权凭证技术,只有经过用户认证并授权的个人数据才可以被第三方共享,同时数据源可以对用户授权做验证,用户成为个人数据的真正控制者和受益者,不但将数据主权归还给用户,有可能蕴育出全新的分布式商业模式。
对金融企业来说,数据共享有利于跨机构、创新性业务开展,从而为客户提供更多元化产品和服务。区块链是一种分布式对等网络,每一个参与方都能拥有一个对等节点并有一份完整的数据拷贝,各方之间的数据通过建立P2P加密数据信道传输,使得各参与方能够在一个平等互信的网络环境中进行数据价值流通,释放数据红利。一方面大型、小型机构都是基于机构内部已有客户数据来完善自身客户的信息完善度,各方平等参与。另一方面,按机构贡献的程度设计合理的激励机制,促进大家对有价值的数据来进行共享,既提升了数据价值,又促进了跨机构合作等创新业务开展。
对监管层来说,数据共享有利于减少信息不对称带来的市场风险,降低了因为封闭带来的金融垄断,有利于行业整体高水平质量的发展。主动使用新技术,抢占战略制高,坚持金融开放,推动行业数据生态建设和金融开放,将成为助力证券业高水平发展的重要战略引擎。
最后需要指出,随着数字化的经济和大数据的不断深入发展,数据共享不但是证券行业的“刚需”,同时也是银行、保险等别的金融行业甚至是全行业的广泛需求,本研究也因此具有广泛和普适的应用价值。
为充分发掘区块链在行业数据生态建设中的价值,让各方都从繁荣的行业数据生态中真正受益,本文提出了以下几点建议:
一是制定政策,明确数据生态建设及区块链应用监管底线。二是支持搭建行业链,打造区块链基础设施。三是制定行业数据治理标准,提高数据质量。四是加强人才教育培训,打造行业数据生态标杆应用。