6.6.1 数据脱敏
数据使用常常需要经过脱敏化处理,即对数据进行去隐私化处理,实现对敏感信息的保护,这样既能够有效利用数据,又能保证数据使用的安全性。数据脱敏就是一项重要的数据安全防护手段,它可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,进而降低敏感数据泄露的风险,确保数据合规。
1.敏感数据
敏感数据又称隐私数据,或者敏感信息。《中华人民共和国保守国家秘密法》规定,敏感信息是指不当使用或未经授权被人接触或修改后,会产生不利于国家和组织的负面影响和利益损失,或不利于个人依法享有的个人隐私的所有信息。 敏感数据可以分为个人敏感数据、商业敏感数据、国家秘密数据等。目前的日常应用中,常见的敏感数据有姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类(如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、交易日期、交易金额等。 为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,例如,可以把数据密级划分为5个等级,分别是L1(公开)、L2(保密)、L3(机密)、L4(绝密)和L5(私密)。
2.数据脱敏
数据脱敏是对各类数据所包含的自然人身份标识、用户基本资料等敏感信息进行模糊化、加扰、加密或转换后形成无法识别、无法推算演绎、无法关联分析原始用户身份标识等的新数据,这样就可以在非生产环境(开发、测试、外包、数据分析等)、非可控环境(跨组织或团队数据应用)、生产环境、数据共享、数据发布等环境中安全地使用脱敏后的真实数据集。 加强数据脱敏建设,建立数据脱敏制度,完善和制定生产数据使用管理制度,并明确生产数据中敏感信息数据字典规范和生产数据申请、提取、安全预处理、使用、清理、销毁等环节的处理流程,有助于提高生产数据使用管理规范化、制度化水平,防范生产数据泄露等安全隐患,完善信息科技风险管理体系。
3.数据脱敏方式
数据脱敏方式包括可恢复与不可恢复两类。可恢复类指脱敏后的数据可通过一定的方式,恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。不可恢复类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复,一般可分为替换算法和生成算法两类。数据脱敏方式主要由应用场景决定,例如,对于发布数据场景,既要考虑直接表示信息,又要非表示信息,防止通过推算演绎、关联分析等手段,定位到用户身份。
4.数据脱敏原则
数据脱敏通常需要遵循一系列原则,从而确保组织开展数据活动以及参与这些活动的人员能够在原则的指引下,实施相关工作。数据脱敏原则主要包括算法不可逆原则、保持数据特征原则、保留引用完整性原则、规避融合风险原则、脱敏过程自动化原则和脱敏结果可重复原则等。
·算法不可逆原则:是指除一些特定场合存在可恢复式数据复敏需求外,数据脱敏算法通常应当是不可逆的,必须防止使用非敏感数据推断、重建敏感原始数据。
·保持数据特征原则:是指脱敏后的数据应具有原数据的特征,因为它们仍将用于开发或测试场合。带有数值分布范围、具有指定格式(如信用卡号前4位指代银行名称)的数据,在脱敏后应与原始信息相似。姓名和地址等字段应符合基本的语言认知,而不是无意义的字符串。在要求较高的情形下,还要求具有与原始数据一致的频率分布、字段唯一性等。
·保留引用完整性原则:是指数据的引用完整性应予以保留,如果被脱敏的字段是数据表主键,那么相关的引用记录必须同步更改。
·规避融合风险原则:是指应当预判非敏感数据集多源融合可能造成的数据安全风险。对所有可能生成敏感数据的非敏感字段同样进行脱敏处理。例如,在病人诊治记录中,为隐藏姓名与病情的对应关系,将"姓名"作为敏感字段进行变换。但是,如果能够凭借某"住址"的唯一性推导出"姓名",则需要将"住址"一并变换。
·脱敏过程自动化原则:是指脱敏过程必须能够在规则的引导下自动化进行,才能达到可用性要求,更多的是强调不同环境的控制功能。
·脱敏结果可重复原则:是指在某些场景下,对同一字段脱敏的每轮计算结果都相同或者都不同,以满足数据使用方可测性、模型正确性、安全性等指标的要求。