当前位置:主页 > 云存储服务 >

金山云_申请企业邮箱多少钱_怎么买

为什么掩蔽和假名化不是匿名化大型数据集的最佳工具?

在我最近的博客"匿名化:在不损害隐私的情况下分析敏感数据"中,我向您介绍了SAP HANA对实时匿名数据访问的愿景,以及这为以前被数据保护和隐私条例阻止的用例带来的新机会。

在这个博客中,大数据查询平台,我将解释哪些高级匿名化存在的方法和标准超越了掩蔽和假名:特别是k-匿名和差异隐私。

数据何时真正匿名?你可能还记得一些案例,例如公共交通组织或电信供应商发布的数据集不够"匿名化",导致非常具有破坏性的高度可见的新闻标题。

这不是指手画脚,因为你知道吗?匿名真的很难!对于许多实际的用例来说,仅仅用假名替换名称或掩盖一些值是不够的。只要有一点额外的背景知识,通常就可以确定您认为匿名的个人。

组织正越来越多地寻找将现代以数据为中心的业务用例与严格的隐私条例(如通用数据保护条例(GDPR))相协调的方法。那么,企业如何确保他们做了正确的事情,并表明他们正在认真对待自己的数字责任呢?

SAP希望为客户的数字化转型之旅提供支持,让他们将隐私挑战转化为机遇。我们的愿景是提供对数据的实时匿名访问,从而使数据可用于以前被数据保护和隐私条例阻止的用例。

在Daniel Schneiss的博客中阅读更多关于如何将数据隐私挑战转化为商业价值的信息。

SAP HANA团队已经投入了大量的思考和实践研究如何最好地帮助客户保护数据隐私,同时在现代分析用例中充分挖掘其数据潜力。使用SAP HANA 2.0 SPS 03,我们发布了一个可定制的功能,允许组织匿名化实时数据—通过在SAP HANA中提供其数据的匿名化视图。有关此版本中新安全功能的更多信息,请查看此博客。

医院收集大量包含高度敏感信息的患者数据。这些数据的主要目的是让医生照顾他们的病人。只有一小部分人可以访问像下面例子中的Martin这样的个体患者的数据。通常只有主治医生、护士和病人马丁本人。使用标准的安全机制(如访问控制和授权)对数据访问进行严格管理。

然而,患者数据是一个非常有价值的信息来源,搭建大数据平台,特别是在它可以提供关于什么导致疾病或什么治疗有效的见解的情况下。一个典型的医学研究者可能会问一些类似的问题:病人的体重与癌症之间是否存在相关性。病人的保密和民进党的规定常常阻止这样的分析,低价云服务器,因为有个人资料被泄露的风险。

与需要知道哪个病人得了什么病的治疗医生不同,医学研究人员对马丁这样的个人的疾病不感兴趣。他们的目标是从患者数据中获得统计医学见解,以发现模式。

那么,如何在不暴露个人敏感信息的情况下,为研究目的评估大型数据集?

第一件事:所有直接识别个人的信息,例如姓名,必须删除。这可以通过删除相关列、屏蔽这些列中的值(例如,对名称应用掩码XXXXXXX)或使用假名(例如,使用下表中的名称哈希值)来实现。

但这就足够了吗?如果研究人员知道他的同事马丁可能在数据集中,并且也知道马丁超重了怎么办?再看一次上表,有了关于马丁体重的额外知识,仍然可以在数据集中识别马丁,大数据 数据分析,尽管他的真实姓名被删除了。

下一个直观的步骤是从数据集中删除更多有助于识别个人的信息,即所谓的"准标识符"。如果删除了足够的信息,就无法再确认个人身份。但是等等:那个想找出体重和癌症之间相关性的研究人员呢?查看下面清除的患者数据,权重列已被删除…因此研究人员将无法再从数据集中获得任何见解。

如何在效用(回答研究人员的问题)和隐私(保护个人的敏感信息)之间实现正确的平衡?

匿名化提供了一种结构化的方法。在我进一步解释这是如何工作的之前,请记住,每当您处理与个人相关的数据时,您总是需要与组织中的数据保护官员密切合作,讨论适用哪些隐私法规(比如GDPR)以及需要应用哪些安全机制和组织措施。

一种流行的方法是不是排除可能导致个体的数据,而是以结构化的方式进行概括。我们的目标是将数据集分成若干组,这些组仍然允许对要分析的数据进行有效的统计分析(我们的示例中的"权重"和"疾病"列),但不可能获得有关个人的敏感信息。

下表显示了一个准标识符出生年份、位置和权重将其推广为两个群,每个群有两个成员。在真实的用例中,组当然会更大,一个好的经验法则是10,这在问卷调查中很常见。k-匿名中的变量k(示例中的2)表示最小群体规模。

猜你喜欢

微信公众号