searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享

什么是差分隐私?

2024-05-28 09:00:12
5
0

想象一下,你是一所大学的学生,想知道他们的学生群体中有多少百分比,以及学生群体中不同子群体的百分比,在他们的本科经历中的某个时候在考试中作弊。他们通过随机挑选一个具有代表性的学生样本并询问他们以下问题来回答这个问题:他们的预期毕业年份、他们的学习专业、他们的宿舍以及他们是否曾经在考试中作弊。该大学向接受调查的人保证,他们的答案将保持“匿名”——具体来说,他们的名字不会与他们对大学的回答一起公布。现在想象一下,你是这些被调查的学生之一,并且你在学习期间的某个时候在考试中作弊。鉴于您对学校保持“匿名”的保证,您会完全放心地回答这项民意调查吗?

大多数人自然会回答“不”。为什么在大学保证“匿名”的情况下,如实回答这项民意调查仍然存在潜在的不安全感?

这是因为大学承诺的“匿名”只是一个幌子。假设您是宿舍里 10 届 2022 名学生之一。现在,假设在这十个学生中,你是唯一一个心理学专业的学生。有了这些看似微不足道的人口统计信息,以及你对作弊的供认,你就不再是大学的匿名者了。大学可以简单地访问他们的学生目录,在那里他们可以将所有这些信息(包括您作弊的事实)与您的名字联系起来。

虽然这种“数据泄露”的风险相对较低——也许你被留校察看,或者你收到了一封永久记录的信——但使用补充数据或背景信息将匿名数据集追踪到个人的行为,正式定义为链接攻击,在数据隐私领域是一个令人难以置信的威胁。链接攻击使攻击者能够使用看似无害的数据集来执行大规模的破坏性数据泄露。仅仅通过从数据集中删除名字来“去匿名化”数据的承诺并不足以保护人们不被利用自己的信息来对付他们。根据哈佛大学政府与技术实践教授拉坦亚·斯威尼(Latanya Sweeney)撰写的一篇论文,87%的美国人只需三条信息即可唯一识别:邮政编码、性别和出生日期。1因此,为了解决链接攻击的威胁,差分隐私应运而生。

 

差分隐私的概念定义

想象一下上面的相同场景,但略有改动。现在,当被问及你是否作弊时,民意调查员会告诉你以下内容:掷硬币。如果硬币落在头上,请如实回答您是否作弊。如果硬币落在反面,再翻转一次,如果它落在正面,回答“是”,如果它落在反面,则回答“否”。

 

现在假设你被叫到学术诚信委员会,他告诉你,你的学业成绩单上会有一封信,因为你对调查的回答是肯定的(为了这个例子,让我们驳回这明显违反了标准的民意调查做法,因为学校保证答案将保持匿名,不会被追踪到个别学生)。有了相当高的合理性(我们稍后将在数学上定义“相当高”的含义),你可以争辩说你实际上从未在考试中作弊,而只是按照掷硬币的顺序回答“是”。现在,尽管他们的答案可以追溯到他们,但由于在问卷调查过程中添加了这种不确定性缓冲,学生不会因使用他们的数据而受到任何影响。

 

 

 

我们的差分私有算法及其可能结果的简单图表。2

 

这是实现差分隐私的一个示例。从概念的角度来看,差分隐私的定义取决于几个关键原则。根据迈克尔·卡恩斯(Michael Kearns)在他的《道德算法》(The Ethical Algorithm)一书中的说法,首先是“差分隐私要求添加或删除单个人的数据记录不会使任何结果的概率改变'很多'。3当我们讨论差分隐私的数学定义时,我们将讨论“多少”是数字上的。第二个原则是,“任何外部观察者都无法因为这个人的特定数据而了解这个人。3最后一个关键原则是,“对于数据集中的每个人,以及任何观察者,无论他们最初对世界的信念是什么,在观察了差分私有计算的输出后,他们对任何事物的后验信念都接近于如果他们观察到没有个人数据的相同计算运行的输出。3同样,“很多”和“接近”是松散的术语,稍后将更客观地定义。为了澄清这最后一个原则,让我们回顾一下我们以大学为例。假设某个观察者想知道学生 A 是否接受了这项研究的民意调查。差分隐私保证,如果向观察者展示最终计算(在本例中,是大学学生作弊的百分比),无论该计算是用学生 A 的数据计算的还是没有,他们都无法猜测数据集是否包含学生 A 比随机猜测更准确。

 

从本质上讲,差分私有算法将预定数量的“噪声”注入数据集(在我们的示例中,插入的“噪声”由抛硬币决定;在现实世界中,使用更复杂的东西,如拉普拉斯分布来插入噪声)。这种噪音保证了合理的可否认性,从而保护了数据被使用的人免受伤害。但是,由于部署这些算法的数据科学家确切地知道这种噪声(换句话说,错误)是如何被引入数据中的,因此他们可以向后工作,以高置信度计算他们正在寻找的指标。使用差分私人民意调查实践,大学可以粗略地计算出其学生群体中作弊的百分比,同时保证其数据被用于此计算的任何学生都将受到保护,不会因使用其数据而受到任何影响。

 

差分隐私的数学定义

对于以公式为导向的人来说,本节将与您更相关。从概念的角度来看,我们理解,差分私有算法保证了对手几乎无法了解单个人的信息,而如果将该个人数据从支持该算法的数据集中删除,他们就无法了解该个人。然而,如果你是一名数据分析师,那么一家公司要求你设计一个预测性机器学习模型,这样人们就可以通过使用他们的数据来了解数据集中任何个人的“几乎一无所知”,这是愚蠢的。归根结底,机器学习算法归结为数字、矩阵(它们本身只是更多数字的数组)和函数。它没有松散数量的概念,例如“几乎不多”或“不多”。

然而,事实证明,这些宽松的条款被一个参数 ε 封装,也称为隐私预算。根据 Medium 的说法,隐私预算可以被认为是“个人对泄露隐私的限制”。4因此,小ε会带来更大的隐私,而大ε会带来更少的隐私。为了更数学地说明这一点ε,如果对于所有数据集对 x、y 在一个人的数据输入上完全不同,并且所有事件 S

$Pr[M(x) \in S] \leq e^{\epsilon}Pr[M(y) \in S]$

对于较小的 ε 值,这可以近似为

$Pr[M(x) \in S] \leq (1+ \epsilon)Pr[M(y) \in S]$

将噪声注入数据集后,必须向后工作才能计算出最初查找的指标。让我们看一个过于简化的例子,使用上面大学场景中的差分私有算法。假设大学里作弊的学生的真实比例是 x,而我们的随机样本中有 5/12 对民意调查的回答是肯定的(在统计学领域,比率表示为整数分数的可能性几乎为零,但为了这个例子,我们将忽略这一点)。因此,我们知道大学里没有作弊的学生百分比是 1-x,因为查询是二进制的(换句话说,唯一的其他选择是回答否)。我们也知道,学生将有 3/4 的时间如实回答问题,因为他们的第一次翻转有 1/2 的机会是正面(在这种情况下,他们需要如实回答),如果他们的第一次翻转是反面,则有 1/2 * 1/2 = 1/4 的机会如实回答。在未作弊的 1-x 百分比的学生中,1/4 的学生会根据他们的掷硬币顺序对民意调查回答“是”。将这些放在一起,3/4x 的学生如实回答是,而 1/4(1-x) 学生不诚实地回答是,这些加起来是 5/12。求解 x,我们非常有信心地得到,大学里有 1/3 的学生作弊。然而,在计算这一比率时,由于实施了差分隐私,我们代表本研究使用其数据的任何个人学生大大减少了隐私泄露。

 

如果差分隐私被用作对抗数据攻击的简单工具似乎好得令人难以置信,那是因为它确实如此。差分隐私不是针对所有对抗性威胁和违规行为的黑匣子解决方案。作为计算机科学家、数据分析师和工程师,我们倾向于选择有条不紊、公式化且可以统一应用的解决方案。但是,当我们处理无法量化的问题时——隐私、道德、公平、正义等——没有单一的方法、单一的公式,比所有其他方法都正确,可以应用于所有情况。与所有其他解决主观道德困境的解决方案一样,差分隐私也有其优点和缺点,与这些解决方案一样,数据分析师必须考虑每种独特情况下的成本和收益。

 

差分隐私的成本

在计算领域以及人类领域,任何大规模社会问题的解决方案都不可避免地会有其不完美之处。正如几乎没有法律或法规可以同时优化正义、实用性、功效和成本一样,几乎没有算法可以优化所有这些因素而没有任何缺点。差分隐私对这个概念并不陌生。

 

差分私有算法的一个关键属性是它们是组合的,它既有益又带来了明显的负担。Michael Kearns进一步阐述了这一特性,他解释说:“如果你有两个差分私有算法,你可以同时运行它们,结果仍然是差分私有的。你可以将一个的输出作为另一个的输入,结果仍然是差分私有的。3在许多方面,这非常有用。这使数据科学家能够通过简单地连接各种差分私有构建块来创建大型、复杂的算法。它使差分隐私更加实用,因为它的实际应用往往规模非常大。然而,相反,正如差分隐私可以聚合一样,隐私损失也可以聚合。将两种差分私有算法合并为一种新的、更复杂的算法会导致前两种算法的隐私损失加剧。换句话说,虽然新算法更加强大,但其隐私保证却减弱了。在这种情况下,权衡是隐私的复杂性,并且,如前所述,由部署此算法的人(无论是个人数据科学家、大型科技公司等)来决定算法的复杂性与他们愿意牺牲多少消费者隐私。

 

同样,对同一个差分私有数据集的多个查询会降低匿名化程度,因为这些查询的结果可以聚合起来,通过过滤掉噪声来重建原始数据集。5因此,这些数据背后的人必须决定他们是否更重视其数据的寿命和重复使用,还是更重视数据中包含的个人的隐私。

 

我们将讨论的差分隐私的最后一个成本更加明显:准确性。毫不奇怪,如果我们故意将噪声注入数据集,我们的计算将不如使用完全真实的数据准确。这就是为什么数据科学家使用经典的流行语,例如“高度置信”或“假设是合理的”。他们无法保证指标的确定性,因为他们有意识地降低数据的准确性,以保护所包含的个人。从数学上讲,隐私和准确性呈反比关系。隐私级别越高(低ε),我们结果的准确性就越低。为了在保证隐私的同时对抗这种对准确性的打击,必须使用更大的数据集。在商业世界中,这是更高的货币成本的代名词,这是任何企业都不寻求最大化的指标。同样,相对于这些指标,没有本质上优于这些指标的差分私有算法。它取决于部署它们的人员和团体的价值观和商业实践。一些公司将隐私放在首位,不考虑产生的成本,因此寻求最小化ε(最大化隐私)。其他人则寻求削减成本,而不考虑对个人及其数据的影响,因此会尝试最大化ε(最小化隐私)。对于许多公司来说,他们寻求找到一个中间立场,故意选择对隐私威胁相对较低ε,同时仍然避免金钱打击。这是一个不能仅仅自动化的决定;由人类而不是机器有意识地决定他们优先考虑的价值观。

 

社会中差异隐私的例子

尽管差分隐私在数据科学领域是一个相对较新的发现,但它的应用已经可以在我们的社会中看到。差分隐私的一个主要领域是大型科技公司。 苹果在其iOS 10和macOS Sierra软件中实施了差分隐私,以收集数据用于多种不同的目的。其中包括确定哪些网站使用的功能最大,使用各种“表情符号”的上下文,以及人们经常输入的哪些单词不包含在键盘的字典中。谷歌已经部署了开源的差分私有算法,以跟踪和检测其浏览器中的恶意软件,并为其地图功能收集大都市地区的交通信息。6另一个可以找到差分隐私的主要部门是联邦政府。美国人口普查局(U.S. Census Bureau)在2017年宣布,“作为2020年人口普查的一部分发布的所有统计分析都将受到差分隐私的保护。3这样做的目的是保护美国人民的个人隐私。一些人认为这将损害人口普查结果的准确性,而另一些人则赞扬联邦政府在保护隐私方面采取的坚定立场。这是上面提到的一个明显的例子——差分隐私的具体部署和参数选择完全取决于手头的具体任务、任务的目标是什么,以及人们愿意牺牲哪些成本。

 

结论

差分隐私是机器学习算法和大型数据集的关键属性,可以极大地改善对所包含个人隐私的保护。通过有意识地将噪声引入数据集,我们能够保证任何可能被其数据用于伤害他们的个人的合理否认,同时仍然能够高度确定地计算所需的统计数据。

 

然而,这并不是说差分隐私是解决数据泄露的一刀切解决方案。差分隐私为了隐私而牺牲了准确性,由那些部署差分隐私算法的人来决定他们愿意放弃多少,以确保对人民的保护。从数学上讲,数据科学家必须有意识地设置参数ε以反映他们的价值观和优先级(在更复杂的差分隐私实现中,有更多的参数,但现在我们只关注ε)。虽然自动化整个数据分析过程的想法非常有吸引力,但这是人为干预的一个关键点,不能被忽视或自动化。

 

我们已经看到在社会的几个部门部署了差异化隐私,从大型科技公司到联邦政府。然而,这仍然是一个相对较新的发现,随着我们继续看到技术渗透到我们日常生活的更多领域,毫无疑问,差分隐私将在许多新领域表现出来。

 

虽然差分隐私与许多用于解决社会问题的算法一样,有其明显的缺点,但使用自动化和机器学习来解决公平、道德和隐私的主观概念是计算世界中一个令人难以置信的突破性发现,并且正在使我们作为一个社会更接近解决技术固有的道德困境。

0条评论
作者已关闭评论
吴****炫
6文章数
0粉丝数
吴****炫
6 文章 | 0 粉丝

什么是差分隐私?

2024-05-28 09:00:12
5
0

想象一下,你是一所大学的学生,想知道他们的学生群体中有多少百分比,以及学生群体中不同子群体的百分比,在他们的本科经历中的某个时候在考试中作弊。他们通过随机挑选一个具有代表性的学生样本并询问他们以下问题来回答这个问题:他们的预期毕业年份、他们的学习专业、他们的宿舍以及他们是否曾经在考试中作弊。该大学向接受调查的人保证,他们的答案将保持“匿名”——具体来说,他们的名字不会与他们对大学的回答一起公布。现在想象一下,你是这些被调查的学生之一,并且你在学习期间的某个时候在考试中作弊。鉴于您对学校保持“匿名”的保证,您会完全放心地回答这项民意调查吗?

大多数人自然会回答“不”。为什么在大学保证“匿名”的情况下,如实回答这项民意调查仍然存在潜在的不安全感?

这是因为大学承诺的“匿名”只是一个幌子。假设您是宿舍里 10 届 2022 名学生之一。现在,假设在这十个学生中,你是唯一一个心理学专业的学生。有了这些看似微不足道的人口统计信息,以及你对作弊的供认,你就不再是大学的匿名者了。大学可以简单地访问他们的学生目录,在那里他们可以将所有这些信息(包括您作弊的事实)与您的名字联系起来。

虽然这种“数据泄露”的风险相对较低——也许你被留校察看,或者你收到了一封永久记录的信——但使用补充数据或背景信息将匿名数据集追踪到个人的行为,正式定义为链接攻击,在数据隐私领域是一个令人难以置信的威胁。链接攻击使攻击者能够使用看似无害的数据集来执行大规模的破坏性数据泄露。仅仅通过从数据集中删除名字来“去匿名化”数据的承诺并不足以保护人们不被利用自己的信息来对付他们。根据哈佛大学政府与技术实践教授拉坦亚·斯威尼(Latanya Sweeney)撰写的一篇论文,87%的美国人只需三条信息即可唯一识别:邮政编码、性别和出生日期。1因此,为了解决链接攻击的威胁,差分隐私应运而生。

 

差分隐私的概念定义

想象一下上面的相同场景,但略有改动。现在,当被问及你是否作弊时,民意调查员会告诉你以下内容:掷硬币。如果硬币落在头上,请如实回答您是否作弊。如果硬币落在反面,再翻转一次,如果它落在正面,回答“是”,如果它落在反面,则回答“否”。

 

现在假设你被叫到学术诚信委员会,他告诉你,你的学业成绩单上会有一封信,因为你对调查的回答是肯定的(为了这个例子,让我们驳回这明显违反了标准的民意调查做法,因为学校保证答案将保持匿名,不会被追踪到个别学生)。有了相当高的合理性(我们稍后将在数学上定义“相当高”的含义),你可以争辩说你实际上从未在考试中作弊,而只是按照掷硬币的顺序回答“是”。现在,尽管他们的答案可以追溯到他们,但由于在问卷调查过程中添加了这种不确定性缓冲,学生不会因使用他们的数据而受到任何影响。

 

 

 

我们的差分私有算法及其可能结果的简单图表。2

 

这是实现差分隐私的一个示例。从概念的角度来看,差分隐私的定义取决于几个关键原则。根据迈克尔·卡恩斯(Michael Kearns)在他的《道德算法》(The Ethical Algorithm)一书中的说法,首先是“差分隐私要求添加或删除单个人的数据记录不会使任何结果的概率改变'很多'。3当我们讨论差分隐私的数学定义时,我们将讨论“多少”是数字上的。第二个原则是,“任何外部观察者都无法因为这个人的特定数据而了解这个人。3最后一个关键原则是,“对于数据集中的每个人,以及任何观察者,无论他们最初对世界的信念是什么,在观察了差分私有计算的输出后,他们对任何事物的后验信念都接近于如果他们观察到没有个人数据的相同计算运行的输出。3同样,“很多”和“接近”是松散的术语,稍后将更客观地定义。为了澄清这最后一个原则,让我们回顾一下我们以大学为例。假设某个观察者想知道学生 A 是否接受了这项研究的民意调查。差分隐私保证,如果向观察者展示最终计算(在本例中,是大学学生作弊的百分比),无论该计算是用学生 A 的数据计算的还是没有,他们都无法猜测数据集是否包含学生 A 比随机猜测更准确。

 

从本质上讲,差分私有算法将预定数量的“噪声”注入数据集(在我们的示例中,插入的“噪声”由抛硬币决定;在现实世界中,使用更复杂的东西,如拉普拉斯分布来插入噪声)。这种噪音保证了合理的可否认性,从而保护了数据被使用的人免受伤害。但是,由于部署这些算法的数据科学家确切地知道这种噪声(换句话说,错误)是如何被引入数据中的,因此他们可以向后工作,以高置信度计算他们正在寻找的指标。使用差分私人民意调查实践,大学可以粗略地计算出其学生群体中作弊的百分比,同时保证其数据被用于此计算的任何学生都将受到保护,不会因使用其数据而受到任何影响。

 

差分隐私的数学定义

对于以公式为导向的人来说,本节将与您更相关。从概念的角度来看,我们理解,差分私有算法保证了对手几乎无法了解单个人的信息,而如果将该个人数据从支持该算法的数据集中删除,他们就无法了解该个人。然而,如果你是一名数据分析师,那么一家公司要求你设计一个预测性机器学习模型,这样人们就可以通过使用他们的数据来了解数据集中任何个人的“几乎一无所知”,这是愚蠢的。归根结底,机器学习算法归结为数字、矩阵(它们本身只是更多数字的数组)和函数。它没有松散数量的概念,例如“几乎不多”或“不多”。

然而,事实证明,这些宽松的条款被一个参数 ε 封装,也称为隐私预算。根据 Medium 的说法,隐私预算可以被认为是“个人对泄露隐私的限制”。4因此,小ε会带来更大的隐私,而大ε会带来更少的隐私。为了更数学地说明这一点ε,如果对于所有数据集对 x、y 在一个人的数据输入上完全不同,并且所有事件 S

$Pr[M(x) \in S] \leq e^{\epsilon}Pr[M(y) \in S]$

对于较小的 ε 值,这可以近似为

$Pr[M(x) \in S] \leq (1+ \epsilon)Pr[M(y) \in S]$

将噪声注入数据集后,必须向后工作才能计算出最初查找的指标。让我们看一个过于简化的例子,使用上面大学场景中的差分私有算法。假设大学里作弊的学生的真实比例是 x,而我们的随机样本中有 5/12 对民意调查的回答是肯定的(在统计学领域,比率表示为整数分数的可能性几乎为零,但为了这个例子,我们将忽略这一点)。因此,我们知道大学里没有作弊的学生百分比是 1-x,因为查询是二进制的(换句话说,唯一的其他选择是回答否)。我们也知道,学生将有 3/4 的时间如实回答问题,因为他们的第一次翻转有 1/2 的机会是正面(在这种情况下,他们需要如实回答),如果他们的第一次翻转是反面,则有 1/2 * 1/2 = 1/4 的机会如实回答。在未作弊的 1-x 百分比的学生中,1/4 的学生会根据他们的掷硬币顺序对民意调查回答“是”。将这些放在一起,3/4x 的学生如实回答是,而 1/4(1-x) 学生不诚实地回答是,这些加起来是 5/12。求解 x,我们非常有信心地得到,大学里有 1/3 的学生作弊。然而,在计算这一比率时,由于实施了差分隐私,我们代表本研究使用其数据的任何个人学生大大减少了隐私泄露。

 

如果差分隐私被用作对抗数据攻击的简单工具似乎好得令人难以置信,那是因为它确实如此。差分隐私不是针对所有对抗性威胁和违规行为的黑匣子解决方案。作为计算机科学家、数据分析师和工程师,我们倾向于选择有条不紊、公式化且可以统一应用的解决方案。但是,当我们处理无法量化的问题时——隐私、道德、公平、正义等——没有单一的方法、单一的公式,比所有其他方法都正确,可以应用于所有情况。与所有其他解决主观道德困境的解决方案一样,差分隐私也有其优点和缺点,与这些解决方案一样,数据分析师必须考虑每种独特情况下的成本和收益。

 

差分隐私的成本

在计算领域以及人类领域,任何大规模社会问题的解决方案都不可避免地会有其不完美之处。正如几乎没有法律或法规可以同时优化正义、实用性、功效和成本一样,几乎没有算法可以优化所有这些因素而没有任何缺点。差分隐私对这个概念并不陌生。

 

差分私有算法的一个关键属性是它们是组合的,它既有益又带来了明显的负担。Michael Kearns进一步阐述了这一特性,他解释说:“如果你有两个差分私有算法,你可以同时运行它们,结果仍然是差分私有的。你可以将一个的输出作为另一个的输入,结果仍然是差分私有的。3在许多方面,这非常有用。这使数据科学家能够通过简单地连接各种差分私有构建块来创建大型、复杂的算法。它使差分隐私更加实用,因为它的实际应用往往规模非常大。然而,相反,正如差分隐私可以聚合一样,隐私损失也可以聚合。将两种差分私有算法合并为一种新的、更复杂的算法会导致前两种算法的隐私损失加剧。换句话说,虽然新算法更加强大,但其隐私保证却减弱了。在这种情况下,权衡是隐私的复杂性,并且,如前所述,由部署此算法的人(无论是个人数据科学家、大型科技公司等)来决定算法的复杂性与他们愿意牺牲多少消费者隐私。

 

同样,对同一个差分私有数据集的多个查询会降低匿名化程度,因为这些查询的结果可以聚合起来,通过过滤掉噪声来重建原始数据集。5因此,这些数据背后的人必须决定他们是否更重视其数据的寿命和重复使用,还是更重视数据中包含的个人的隐私。

 

我们将讨论的差分隐私的最后一个成本更加明显:准确性。毫不奇怪,如果我们故意将噪声注入数据集,我们的计算将不如使用完全真实的数据准确。这就是为什么数据科学家使用经典的流行语,例如“高度置信”或“假设是合理的”。他们无法保证指标的确定性,因为他们有意识地降低数据的准确性,以保护所包含的个人。从数学上讲,隐私和准确性呈反比关系。隐私级别越高(低ε),我们结果的准确性就越低。为了在保证隐私的同时对抗这种对准确性的打击,必须使用更大的数据集。在商业世界中,这是更高的货币成本的代名词,这是任何企业都不寻求最大化的指标。同样,相对于这些指标,没有本质上优于这些指标的差分私有算法。它取决于部署它们的人员和团体的价值观和商业实践。一些公司将隐私放在首位,不考虑产生的成本,因此寻求最小化ε(最大化隐私)。其他人则寻求削减成本,而不考虑对个人及其数据的影响,因此会尝试最大化ε(最小化隐私)。对于许多公司来说,他们寻求找到一个中间立场,故意选择对隐私威胁相对较低ε,同时仍然避免金钱打击。这是一个不能仅仅自动化的决定;由人类而不是机器有意识地决定他们优先考虑的价值观。

 

社会中差异隐私的例子

尽管差分隐私在数据科学领域是一个相对较新的发现,但它的应用已经可以在我们的社会中看到。差分隐私的一个主要领域是大型科技公司。 苹果在其iOS 10和macOS Sierra软件中实施了差分隐私,以收集数据用于多种不同的目的。其中包括确定哪些网站使用的功能最大,使用各种“表情符号”的上下文,以及人们经常输入的哪些单词不包含在键盘的字典中。谷歌已经部署了开源的差分私有算法,以跟踪和检测其浏览器中的恶意软件,并为其地图功能收集大都市地区的交通信息。6另一个可以找到差分隐私的主要部门是联邦政府。美国人口普查局(U.S. Census Bureau)在2017年宣布,“作为2020年人口普查的一部分发布的所有统计分析都将受到差分隐私的保护。3这样做的目的是保护美国人民的个人隐私。一些人认为这将损害人口普查结果的准确性,而另一些人则赞扬联邦政府在保护隐私方面采取的坚定立场。这是上面提到的一个明显的例子——差分隐私的具体部署和参数选择完全取决于手头的具体任务、任务的目标是什么,以及人们愿意牺牲哪些成本。

 

结论

差分隐私是机器学习算法和大型数据集的关键属性,可以极大地改善对所包含个人隐私的保护。通过有意识地将噪声引入数据集,我们能够保证任何可能被其数据用于伤害他们的个人的合理否认,同时仍然能够高度确定地计算所需的统计数据。

 

然而,这并不是说差分隐私是解决数据泄露的一刀切解决方案。差分隐私为了隐私而牺牲了准确性,由那些部署差分隐私算法的人来决定他们愿意放弃多少,以确保对人民的保护。从数学上讲,数据科学家必须有意识地设置参数ε以反映他们的价值观和优先级(在更复杂的差分隐私实现中,有更多的参数,但现在我们只关注ε)。虽然自动化整个数据分析过程的想法非常有吸引力,但这是人为干预的一个关键点,不能被忽视或自动化。

 

我们已经看到在社会的几个部门部署了差异化隐私,从大型科技公司到联邦政府。然而,这仍然是一个相对较新的发现,随着我们继续看到技术渗透到我们日常生活的更多领域,毫无疑问,差分隐私将在许多新领域表现出来。

 

虽然差分隐私与许多用于解决社会问题的算法一样,有其明显的缺点,但使用自动化和机器学习来解决公平、道德和隐私的主观概念是计算世界中一个令人难以置信的突破性发现,并且正在使我们作为一个社会更接近解决技术固有的道德困境。

文章来自个人专栏
云安全产品的CASB解决方案
6 文章 | 2 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0