GAN是什么,为什么要害怕它?

2020年11月9日16:37:17 发表评论

摘要

在网络安全方面,机器学习是一种非常有用的工具,它允许先进的检测和保护机制来保护我们的数据。一个特别有效的机器学习概念是生成对抗网络(GAN),这是本文的重点。GAN有许多与网络安全相关的应用,包括加强现有的攻击,使其达到一个基本检测系统无法处理的水平。随着GAN的流行,防御和认识GAN攻击的必要性也变得越来越紧迫。本文将详细介绍GAN攻击的方法,并试图回答如何防范这些攻击的问题。

介绍

据预测,生成对抗网络(简称GAN)将成为机器学习领域的下一件大事。GAN的核心思想是给定一组大数据,GAN能够生成与原始数据有效地不可区分的全新的独特数据。自2014年在世界上首次亮相以来,GAN获得了大量的关注和好评,甚至被Facebook人工智能研究总监Yann LeCun[5]称为“过去10年ML中最有趣的想法”。尽管GAN令人兴奋,但从网络安全的角度来看,它们确实构成了一个重大威胁,并且在密码破解、恶意软件检测、面部识别等领域有着深远的应用。本文的目的是介绍GAN,讨论GAN带来的潜在安全风险,并提出用于高级检测和预防GAN攻击的防御机制。

社区

一场持续不断的网络安全斗争就是学习如何抵御我们从未见过的更新、更先进的攻击。一种解决方案是使用机器学习来分析现有的攻击,从中学习,并推断未来的攻击可能会是什么样子。GAN是对机器学习的直接反击。通过对机器学习采取敌对的方法,攻击者可以制造复杂的攻击,以至于欺骗了我们最先进的系统。GAN甚至有能力欺骗基于机器学习的防御系统。这意味着任何依赖机器学习的系统都不再安全。如果不了解GAN的内部工作方式,我们就会受到这些攻击者的威胁。然而,如果我们花时间去了解GAN,我们就可以为未来装备自己,并保证我们的数据安全。

GAN的工作原理

GAN主要由生成器和判别器两部分组成。这两个部分经常被用来比喻罪犯和不诚实的警察。罪犯对制造假币感兴趣,而这个不诚实的警察也愿意帮忙。罪犯从一张质量很差的假钞开始,把它带到警察那里征求反馈。然后警察告诉罪犯钞票是假的,并告诉他如何判断。因此,罪犯回去工作,参考警察的反馈,并制作了一个新的版本的法案。警察再次分辨出这是假的,并给予罪犯更多的反馈。这样的循环会无限期地重复,直到警察再也看不出钞票是假的!这是GAN背后的关键过程,其中罪犯是生成器,警察是识别器,假钞是生成的数据。

这也可以通过下图来理解,下图详述了GAN的体系结构。首先,给生成器一个噪声,最初是完全随机的,它通过数学模型把噪声转换成和样本相似的对象。然后判别器通过对给定的数据判断真假给出反馈。基于此反馈,生成器和判别器更新它们的数学模型,以便根据之前生成的样本进行“学习”。多次重复这个过程后,最终得到的数据样本与原始/训练数据的分布相同。为了深入理解GAN背后的数学原理,有必要阅读由GAN的创建者Ian Goodfellow编写的GAN教程。

GAN是什么,为什么要害怕它?

GAN与网络安全

既然我们已经了解了GAN背后的基本流程,我们就可以谈谈GAN在网络安全中的一些应用了。在本文中,我选择谈论GAN在密码破解、恶意软件和面部检测方面的3种特定的对抗性应用。重要的是要记住,网络安全还有很多领域容易受到敌对的GAN攻击,然而,这3个领域可以提供关于敌对GAN攻击性质的有价值的见解,提出的想法可以推断出适用于不同领域。

密码破解

目前最先进的密码破解技术包括从一个大单词列表中计算数百万个哈希值,并将这些哈希值与我们试图破解的密码哈希值进行比较。这些单词列表通常包括常用或以前使用的密码,但这些列表并不全面。使用这种方法,你的密码破解能力只有强大的单词列表。有经验的密码破解者通常会用一个规则列表来补充他们的单词列表,以扩充这个列表,使其更加详尽。例如,常见的规则包括在密码末尾添加字符串,如“123”,或用数字替换字母,删除元音,等等。这种方法的一个缺点是所有规则必须明确地写出来,并由一些聪明的密码破解者设计。这就是GAN可以发挥作用的地方。通过对GAN进行大量密码数据集的训练,它将开始识别复杂的信息和模式,并在随后使用这些信息和模式来猜测更多的密码。

一个很好的例子就是机器学习研究者开发的PassGAN系统。PassGAN是在“rockyou”数据集(一种行业标准密码列表)上进行训练的,在模拟rockyou的分布和猜测可能在某个地方使用的新独特密码方面,PassGAN的工作非常有效。PassGAN的研究人员报告称,在linkedin密码泄露的43,354,871个密码中,GAN能够匹配10478,322个(24.2%)。这是很重要的,因为GAN没有暴露在任何linkedin数据,但基于rockyou单词列表,它能够生成有意义的唯一密码。它还表明,PassGAN是对当前密码技术的一种令人难以置信的有效补充。与HashCat一起使用时,PassGAN能够比单独使用HashCat多猜出51%到73%的唯一密码。如果这些数字还没有吓到您,那么还值得一提的是,PassGAN可以输出几乎无限数量的密码猜测。对于密码生成规则,可以生成的唯一密码的数量由规则的数量和使用的密码数据集的大小来定义,但是PassGAN的输出不限于密码空间的一个小子集。因此,PassGAN最终能够比其他任何工具猜出更多的密码,尽管所有工具都是针对相同的密码数据集训练的。

隐藏的恶意软件

GAN在网络安全中的应用不仅限于生成数据,GAN还能够避开检测系统。这可以专门用于创建绕过基于机器学习的检测系统的恶意软件。在基于GAN的黑盒攻击生成恶意软件实例的论文中,深入讨论了这个主题。这项研究详述了另一个GAN系统,MalGAN,它能够生成这样的恶意软件,甚至比其他敌对的机器学习方法性能更好。这种攻击的强大之处在于它使用黑盒系统执行,这意味着攻击者不知道正在使用的检测系统。MalGAN的基本架构如下图所示。这个想法与常规的GAN类似,不过黑盒检测器被用作鉴别器,并向生成器提供噪音和恶意软件示例的组合。GAN是什么,为什么要害怕它?

然后判别器也接收良性的例子,进一步通知生成器什么被分类为“非恶意软件”。

这项技术的应用也很深远。通过提供一种新的绕过黑盒恶意软件检测的方法,这意味着攻击者需要更少的了解系统才能成功地攻击它。使用机器学习来生成恶意软件意味着这种恶意软件将会变得越来越微妙和复杂,并且需要更先进的检测系统。当使用基于机器学习的检测系统时,重要的是要记住,它将有其各自的弱点。

伪造面部检测

对于GAN应用程序的最后一部分,我将讨论图像生成和操作中最常见的一种用法。具体来说,GAN可以用来欺骗现有的图像检测系统,以及产生高分辨率的假图像。为了证明这一概念,密歇根州立大学和国际信息技术研究所的研究人员开发了一种系统,可以在面部检测系统中隐藏图像。具体来说,他们使用半对抗性网络来改变图像,从而绕过生物识别。这意味着,像Facebook的DeepFace(号称准确率为97.35%)这样的常用系统,也可能被敌对网络欺骗。研究人员建议使用GAN来提高隐私性,并防止不必要的面部识别,但它确实对任何基于面部识别的安全系统构成了安全威胁。这项研究的另一个重要结论是,即使是一个看起来很简单的任务,如面部识别,它已经被广泛的研究和有很大的准确性,有其各自的弱点,可以被GAN操纵。

除了面部识别,GAN还经常被用来生成非常逼真的假图像。在研究论文《Unpaired image-to-image translation using cycle-consistent adversarial networks 》中展示了使用GAN改变真实图像使其具有某些特性的例子,如将马变成斑马,将夏天变成冬天,将苹果变成橘子,以及更多的。虽然本文不涉及网络安全,但对网络安全领域有一定的启示。使用这种技术对抗可能会导致虚假的图像和视频的政治人物,其他人感兴趣,甚至你。这对国家和个人安全造成威胁,如果照片真实的假图像和视频是微不足道的。在这个时代,眼见为实不再是事实。这就需要开发检测系统,识别真假。

检测和响应

本文的最后一个主题是检测与响应。我想说有一个简单的技巧,或者一个可以运行并且能够快速修复的程序,但不幸的是,情况并非如此。正如您从本文中看到的,GAN的技术相当复杂,能够欺骗先进系统。那么我们能做什么呢?这个问题的答案来自教育和意识。每个检测和响应敌对的GAN的解决方案在上下文中都是独特的,但是理解GAN的内部工作并为最坏的情况做准备是至关重要的。对于那些在基于机器学习的网络安全领域的人来说,GAN在不久的将来会越来越受欢迎。为了检测和响应GAN攻击,在设计系统时考虑到GAN是非常重要的,不要假设机器学习检测没有漏洞。对GAN生成的图像的一种反应已经被开发出来,叫做DeepFD。DeepFD的研究人员创建这个系统的特殊目的是检测敌对的GAN生成的图像,这些图像可能会损害一个人的声誉或人身安全。DeepFD系统报告了94.7%的检测率的假图像产生的国家的艺术GAN网络。

结论

GAN告诉我们,数据是不能信任的。虽然这是机器学习研究的一个热门话题,但考虑到利用先进系统漏洞的能力,它也带来了许多网络安全担忧。随着GAN越来越受欢迎,网络安全从业者跟上研究和技术的步伐,以最好地装备自己,以理解和识别攻击是至关重要的。正如我们所知,当涉及到令人兴奋的新技术时,安全往往是事后考虑的问题。因此,我们作为网络安全领域的成员,有责任始终考虑可能出现的问题,并在攻击者之前抢先两步。

注:本文译自论文《Generative Adversarial Networks: What Are They and Why We
Should Be Afraid 》

flyingsheep

发表评论