快捷搜索:

微软删除知名数据集 拨开数据隐私的迷雾

微软在日前删除了一个名人图片数据集。这个本为天下上最大年夜的公开人脸识别数据集,现在已经不能经由过程微软的渠道造访。

在此次「静默」删除行径背后,又牵涉到了哪些问题呢?

微软想办理的麻烦:MS Celeb 名人数据集

MS Celeb 1M 数据集,最早是微软在 2016 年宣布,此中共包孕了10 万个名人,近 1000 万张面部图片,而这些数据都是从收集上汇集而来。

从收集中 100 万个名人中,根据受迎接程选出 10 万个,然后使用搜索引擎,跳出每小我的大年夜约 100 张图片,就获得了这个宏大年夜的数据集。

MS Celeb 数据集中的 Jobs 图片,

此中绿色是年轻期间的图片,血色是合成图像

而这个数据集最初是用来办事比赛的。MSR IRC是天下上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初便是这个赛事所用。

MS Celeb 1M 常被用来做面部识别的练习。但对付这些图片均来自收集,以是也曾受到了质疑。而微软则表示,是根据「常识共享许可 C.C 协议」,来抓取和得到这些图像的。

根据协议,可以将照片从新用于学术钻研,(照片中的人物并不必然授权许可,而是版权所有者授权。)但微软宣布数据集后,却并不能掌管它的应用。英国「金融时报」进行了一项深入查询造访,结果注解数据被大年夜量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在应用这个数据集的环境。

而这就涉及到了数据集应用的一些规范性问题,一位钻研职员还指出,这涉及到人脸识别图像数据集的伦理,起源和小我隐私等问题。

删除缘故原由:认真该数据集的员工离职?

微软已经在线上默默地删除了MS Celeb 1M,并没有特其余阐明。

Github 上数据集的下载页面已经变成了 404

在金融时报的报道中,微软表示「该网站主要目的是用于学术,」而删除它的缘故原由是,「认真运营这个项目的员工离职了,不再与微软相助,以是进行了删除。」

我们都信托肯定有其他缘故原由,可能也稀有据集图片存在的问题。虽然微软称数据集均来自于"民众,"人物的照片。但此中还包括少量非有名人物。这部分人脸照片的所有者,对微软应用他们的名称和图像信息,曾提出过质疑和品评。

还有技巧职员推想,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该律例于去年生效,旨在建立起数据安然的保护步伐。

GDPR对小我信息的保护及其监管

达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条目,数据集相关网站退役只是由于,「曾经的角逐已经停止」。

当然,这次微软移除 MS Celeb 数据集,并不阴碍它在学术钻研等道路的正常应用。那些用于处置惩罚数据库的对象,现在也可正常造访。

常用公开数据集,也可能有隐私问题

在英国「金融时报」查询造访之后,还有别的两个学术单位也删除了相关的数据集:分手是杜克大年夜学的Duke MTMC 监控数据集,和斯坦福大年夜学的Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月尾,IBM 宣布了百万级其余无私见「人脸多样性」数据集,就曾激发了广泛的争议。

虽然 IBM 强调此举是为削减面部识别中的「私见」问题,但数据集的滥觞,人物的是知情度等问题,都激发了不少质疑声。

有媒体还报道, IBM 表示会按照被照相者的意愿,删除数据集里的相通知片,但都只是一壁之词,并没有实际的行动。

今年 5 月,旧金山曾颁布法令

禁止政府机构应用人脸识别技巧

对付数据集的采集和应用规则,照样一个很不太明确的区域,尤其是收集便利之后,很多机构都能随意马虎地得到大年夜量图片,用于面部识别等用途。

着实,对付数据集涉及的隐私问题,办理规划可以很简单:关乎到用户小我隐私信息时,应包管用户的知情权,确保用户是否乐意供献数据。

但彷佛缺少的从来都不是措施,而是意识。

您可能还会对下面的文章感兴趣: