立即打开
删过几十亿个账号,Facebook的人工智能是怎么培养出来的?

删过几十亿个账号,Facebook的人工智能是怎么培养出来的?

Jeremy Kahn 2020-03-07

对于Facebook而言,如何监督管理这个庞大的社交网络已日益成为一个关乎生死存亡的问题。

Facebook揭开了一项关键性技术的面纱,这项技术可以帮助Facebook应对最艰巨的挑战:清除用于垃圾广告宣传、虚假信息传播等各种活动的虚假账户。

周三,这家互联网媒体巨头透露了一些细节,解释它如何设计出一个人工智能系统,加以训练,让它能自动准确检测违反网站政策的账户。

随着在世界各地面临的监管压力不断增大,对于Facebook而言,如何监督管理这个庞大的社交网络已日益成为一个关乎生死存亡的问题。社交网络在方方面面起到的作用越来越重要,这让公众和立法者都感到措手不及,尤其对平台上的仇恨言论、网络霸凌、网络钓鱼和金融欺诈行为担忧。

五年前,Facebook主要依靠用户向人工审核员举报来处理违规账户。但Facebook需要处理的问题账户数目巨大:根据该公司最近一次公布的数据,2019年第三季度,Facebook屏蔽了约17亿个违规账户。Facebook社区诚信团队的数据科学经理博克拉·加尔鲍伊说,这还不包括一开始申请时就被Facebook禁止创建的账户。Facebook估计,任何时段的活跃账户中都有5%是假的。

依靠人工审查也会产生其他问题。Facebook雇佣合同工来审查可疑内容和行为,但这些合同工通常收入微薄,而且由于经常接触令人不安的帖子、图片和视频,他们的精神健康很容易出现问题。

2018年,Facebook的创始人兼首席执行官马克·扎克伯格告诉美国国会议员,该公司可以利用人工智能处理大量有问题的内容。但直到最近,公司的研究人员和工程师才开始取得进展。

该公司表示,得益于人工智能的帮助,2019年第三季度,Facebook屏蔽的虚假账户中,有99.7%的账户在其他用户向人工审查小组举报之前,就已经得到了处理。

在此过程中,Facebook遇到了一个棘手的问题:它希望能够抓住并阻止所有违反网站政策的行为,处理每一个虚假账户,同时保证不会在无意中屏蔽合法用户。但是,如果它检测违规行为、采取行动的标准过于宽松,会导致合法用户成为受害者,而公司可能会置身于另外一场公关灾难的中心。

加尔鲍伊说,误伤和漏网都要尽量减少。“这个权衡非常难。”她说。

Facebook社区诚信团队的产品经理布拉德·沙特尔沃思解释说,另外一个原因是,骗子们总是在尝试找办法绕过Facebook的防御。

Facebook研发的这项机器学习技术被称为“深度实体分类”,或简称为DEC,其他有需要的公司也可以拿来使用,比如社交网络同行、即时通讯应用程序公司或游戏公司,丹尼尔·伯恩哈特说。他是Facebook伦敦社区诚信团队的工程经理,参与了开发该系统。该公司正在公开DEC的总体架构和它的训练细节,但没有把训练过的模型提供给其他公司。

DEC依赖于一些聪明的想法和工程技术。首先,Facebook意识到,通过让算法审查标准账号的特点(如创建账号的IP地址、账户的年龄、页面上收获点赞的数量、有多少关联账户等)来达到训练效果,会导致筛查模型对于图谋不轨的人太过简单,或者造成过多误伤。

Facebook的解决方案是,不孤立地审查每一个账户,而是把它置于所链接到的所有账户和页面中组成的环境中,延伸到二度分离。然后向系统提供聚合指标,比如全部一级和二级连接好友数量的中位数,而非单个账户的“点赞”或“好友”等表面特征。(这些指标本身并不能说明一个账户是否合法。它们只是一种方法,可以大大增加模型分析的指标数量,从而构建一个更详细的账户统计图。)Facebook称这些数据为“深度特征”,对于恶意行为者来说,调整这些数据更加困难,从而大大降低了误伤或漏网的数量。

尽管Facebook规模庞大,又雇了成千上万名人工审查员,但Facebook仍然表示,要想创建高质量、经人工标注的大规模数据库来训练人工智能算法,确保它能够按照Facebook要求的99%以上的准确率检测每种违规类型(如假账户、垃圾邮件发送者、金融诈骗犯或被盗账户),仍然极其昂贵耗时。

所以Facebook第二个聪明的地方是使用一个高质量的、人工标注的小型数据集(通常小到不适合用于训练高准确度深度学习算法),再加上一个更大的、电脑标注、准确性略低的数据集对前者进行优化。这一点通过将系统划分为两个单独的模块来实现。

在第一个模块中,Facebook先将拥有单个账号深度特征的数据集在多层神经网络上运行,多层神经网络是一种基于人脑的机器学习软件。在这种情况下,算法必须了解哪种深度特征的范式与哪种类型的账户相关:是普通账户、垃圾邮件账户还是钓鱼账户?为了做到这一点,它还需要参照内含500万个虚假账户的海量培训样本,这些账户已经被现有各类不同软件进行了粗略标注。

Facebook从中提取每种账户类型的统计范式,然后将其输入第二个模块,利用另一种称为梯度提升决策树的机器学习算法,按类别——垃圾邮件、假账户、钓鱼、霸凌等——给账户打分,但使用的是一组规模较小、高质量、人工标注的训练数据。(以虚假账户为例,约有10万个人工标注的样本。)评分结果将决定Facebook是否以及将对该账户采取什么行动。

最终,该系统在账户分类上的准确率达到97%以上,远远优于其他方法。

沙特尔沃思说,该系统的设计目的不包括识别虚假的政治宣传信息。Facebook有一个单独的“信息操作”团队来解决这个问题——在某些情况下,也会使用不同构造的机器学习算法。

Facebook并不是唯一一家通过把问题分解成两个互补的独立模块并从中获益的人工智能公司。谷歌母公司Alphabet旗下的人工智能研究公司DeepMind在开发一种利用眼部扫描来识别50多种危害视力的眼部疾病的系统时,也采用了类似的两步法。一个模块做计算机视觉,识别扫描到的特征,而第二个模块根据这些特征做出诊断。该系统因此具有额外优势,比单个的黑盒模块更容易解释。(财富中文网)

译者:Agatha

热读文章
热门视频
扫描二维码下载财富APP