作为平衡数据价值与主体权益的重要一环,个人信息匿名化通过技术措施有效削弱和去除信息与特定主体的关联性,一方面能有助于充分发挥信息效用,以非个人信息的形式最大化数据利用效率,在大数据与技术创新中扮演着重要角色;另一方面也能恰当地控制信息风险,在个人信息保护制度中发挥着独特的功能与价值。
所谓“匿名化”,根据中国《民法典》《个人信息保护法》和《网络安全法》相关条文,其基本概念为“个人信息经过处理无法识别特定自然人且不能复原的过程”。按照目前的法律法规,个人信息经匿名化处理后所得的信息不属于个人信息。对于经过匿名化处理后的信息流通与出境,企业无需承担额外的合规义务。对于企业来说,这意味着企业在处理和利用匿名化信息时,不再需要为满足个人信息保护的合规要求而承担高昂的成本。
然而,中国在信息匿名化问题上仍面临诸多问题。本文旨在分析中国信息匿名化面临的主要问题及其原因,并提出相应的对策建议,以期为提升数据匿名化水平、促进数据合规利用提供参考。
一、中国信息匿名化面临的主要问题
1.信息再识别风险高,匿名化无法完全实现。个人信息匿名化要求,匿名化后的个人信息应当满足“无法识别”、“无法复原”的标准。然而,从技术角度说,并不存在绝对“无法复原”的数据,任何匿名数据都可能会被“去匿名化”,即重新识别到个人信息主体。中国《个人信息安全规范》明确指出,匿名化处理后的数据集(或在与其他数据集汇聚后)具有重新识别出个人信息主体的风险。欧盟第29条数据保护工作组在《第05/2014号意见书》中也提及,“现有的各项匿名化技术都无法彻底消除处理后的信息所残留的再识别风险”。随着数据挖掘技术不断发展,个人信息收集行为日益增加,重识别攻击也将变得更加容易,数据匿名化面临不断增加的风险。在国际上就曾出现过不少匿名化失败案例。例如,美国在线公司(AOL)曾公布65万用户的三个月搜索记录,并进行了匿名化处理,以推动搜索技术的研究。然而,《纽约时报》成功将部分数据去匿名化,并公开了其中一位用户的真实身份。这起隐私泄漏事件引起了人们的广泛关注,美国在线公司因为此事件在北加州地方法院被起诉。
2.匿名化标准执行模糊,企业合规难度大。由于绝对的匿名化在技术上难以实现,而相对匿名化的界限又不明晰,目前匿名化标准的执行具有一定主观性和模糊性,给企业带来了较高的合规难度。尤其是在涉及数据出境的案例中,企业常面临复杂的合规挑战。在调研中,我们发现部分跨国企业在中国开展业务时,也因为匿名化标准不明确,导致数据出境审批流程繁琐,增加了运营难度和合规成本。
二、信息匿名化面临问题的原因
1.匿名化技术目的中本身蕴含再识别的可能性。匿名化处理的技术原理在于删除、替换或加密个人信息中的直接标识符和间接标识符。然而,个人信息的利用价值与其识别性密切相关,假如将数据处理得过于“干净”,便会导致企业数据的商业效用丧失,企业匿名化处理的商业目的无法达成。因此,为了满足匿名信息的实用性,匿名化处理过程中必然会保留一些识别因子,使匿名化处理的再识别的可能性无法被避免。
2.技术发展对数据去匿名化的威胁增大。首先,现代数据挖掘技术变得越来越先进和高效,使得通过各种手段重新识别匿名化数据主体变得更加容易。尤其是机器学习算法的进步和计算能力的提升,使得处理和分析海量数据成为可能。同时,随着互联网和大数据的发展,辅助数据来源显著增加。第三方可以利用多种公开或非公开的数据源进行交叉分析,从而提高去匿名化的成功率。例如,通过社交媒体数据、公共数据库、商业数据等多种渠道,重构个人身份信息的可能性大大增加。此外,去匿名化攻击手段也日益多样化,包括基于统计学方法、模式识别、关联规则挖掘等多种技术手段。这些技术能够挖掘数据中的隐藏模式和关联,从而重新识别出匿名化数据中的个人信息主体。
3.第三方处理者对数据匿名化效果的挑战。一方面,当第三方拥有对技术和数据库的较高掌握程度,以及对数据进行再识别的商业或政治动机时,容易大大增加匿名化风险。部分职业第三方处理者往往掌握更为先进的数据挖掘技术,能够通过“人肉搜索”或行业调查轻松完成再识别行为。相比私人处理者通常只能依赖互联网、政府或公益机构的公开信息,职业第三方处理者还可以利用商业数据库中的额外数据资源完成再识别,对数据匿名化产生巨大的威胁。此外,出于政治或商业目的进行身份信息挖掘,也容易带来巨大的危害。例如,公司可能利用不当收集的用户个人数据,为大选参选人提供数据采集、分析和战略传播。另一方面,信息处理者收集的个人信息不仅用于企业自身经营,还可能出售或者共享给第三方,甚至作为商品打包销售以赚取更多经济利益。
4.监管机构缺乏对行业了解,匿名化标准不符合实际情况。当前,监管部门在制定匿名化标准时往往缺乏对具体行业的深入了解,导致所制定的标准难以符合实际操作需求。由于各行业的数据类型和处理方式存在显著差异,通用的匿名化标准在实际应用中往往显得过于笼统或不切实际。监管部门未能充分考虑到不同数据处理场景中的技术细节和操作复杂性,使得企业在实践中难以有效遵循这些标准。
三、信息匿名化问题的相应对策
1.完善制度建设,控制匿名化风险。一是建议建立健全风险评估机制。匿名化机制应兼顾保障个人信息安全与促进数据高效利用。绝对匿名化难以实现,因此,应侧重“相对匿名化”,即在特定范围和条件下原始信息不可见。在此基础上,建议针对区分不同等级的匿名化信息,采取不同程度的资源倾斜和政策保护。根据匿名化信息的体量、内容敏感性和重要性、被再次传播的可能性等指标,将匿名化分析划分为不同风险等级,例如高风险、中风险和低风险等级。对于高风险匿名化信息,建议采取更为严格和保护性的措施,例如增强数据安全管理、加强监督检查等;对于中低风险匿名化信息,则可以相应降低合规要求和管理成本,以促进数据的合规流通和利用。二是应进一步推广第三方风险评估,落实配套保护措施。2021年,上海市市场监督局发布并实施了上海市地方标准《数据去标识化共享指南》,主张通过可信的第三方平台(例如数据交易中心),在数据共享的过程中实施配套控制与保护措施,促进数据合规流通。
我们建议各地推广这一地方性法规,加强第三方风险评估的应用。具体措施方面,首先要建立和完善第三方评估机构的注册和认证制度,确保评估机构的独立性、专业性和公正性。
其次,鼓励数据处理者在数据共享过程中选择合格的第三方评估机构,进行数据安全风险评估和合规性审核,以确保个人信息安全不受侵犯,有效防范数据泄露和滥用风险。
最后,推动相关部门和行业组织制定更为具体和可操作的技术标准和实施指南,并加强对第三方平台的监管,确保其在数据共享过程中严格执行安全控制和保护措施,维护数据主体的合法权益。
2.监管机构提升自身职能。监管机构应增进与企业相关部门交流沟通,深入了解行业发展现状及其面临的合规挑战。更好地理解和评估企业在数据管理和隐私保护方面的实际操作情况,从而制定更为精准和有效的监管措施。此外,监管机构应该建立更专业的技术团队和法律团队,从而更好地理解和评估企业的实际操作情况。
3.企业加强内部管理,完善知情同意机制。一是加强企业内部管理与安全防控。目前中国《个人信息安全规范》规定了控制个人信息企业的责任担当、记录管理、安全评估、人员培训管理、安全审计等内部机制的组织性标准。在现有制度基础上,企业应根据自身行业情况,进一步细化内部管理制度,确保经手的个人信息不向未经核查的第三方透露。二是完善知情同意,分散风险。企业应与用户之间建立更加明确和有效的知情同意机制。告知用户信息可能面临去匿名化的风险。知情同意的行为反映了个人信息主体对去匿名化风险的主观预期,有助于降低企业达到有效匿名化标准的难度。此外,企业应对用户进行相关教育,增强用户对个人信息处理过程的理解和认知。同时,定期进行满意度调研,收集用户对数据处理措施的反馈意见,以改进和优化匿名化处理的实施方式。
(本文系复旦大学发展研究院《数据跨境流动、个人信息保护与数字韧性建设》课题系列成果。报告主编:江天骄系复旦大学发展研究院副教授、金砖国家研究中心副主任,姚旭系复旦大学发展研究院青年副研究员、上海数据研究院特聘研究员,报告行业导师:陈文昊系植德律师事务所数据合规业务合伙人、合规部负责人,报告组成员:金子韫、吴致远、邢嘉耀、姚媛、马怡宁、陈梓培、郎瑾怡、张桐语均来自复旦大学)
来源:姚媛