快捷菜单
社交媒体
联系方式
业务咨询

400-816-1670

地址

北京市 海淀区 东北旺西路8号 中关村软件园9号楼2区306A

Email

contact@HanSight.com

Phone

(+86 10) 8282 6616

BLOG

2017年安全数据科学领域4大趋势

导语:本文介绍了机器人、威胁情报、对抗性机器学习和深度学习在如何影响着安全格局。


4-trends-in-security-data-science-1

当下安全数据科学领域如火如荼――相关报告表明,到2023年,安全分析市场份额将会达到80亿美元,增长率高达26%,这归因于无休止的网络攻击。如果你想在2017年更胜新兴的安全威胁一筹,在合适的领域进行投入十分重要。我曾在2016年3月写过一篇文章,介绍了2016年要留意的四大趋势;为了写2017年四大趋势这篇文章,来自Netflix的科迪·里乌克斯(Cody Rioux)与我一起撰文,并带来了他在平台方面的视野。

本文旨在帮助读者制定2017年每个季度的计划(即四个季度的四大趋势),同时为阐述的每个趋势给出了简短的理由,为什么我们认为投入时机已成熟,以及如何充分投入,并附上了相应的工具和资源。

趋势1:实现自动化安全响应和协助的机器人程序

我们认为,安全行业的自动化和自主响应会大大加强,具体表现为,当模型认为信息是相关信息时,聊天机器人会提供信息,另外会提供随需应变的响应。在事件响应期间,响应可能会集成到你目前用来与团队成员进行沟通的平台中。

这并不是什么新想法――其实聊天机器人存在的时间至少与互联网中继聊天(IRC)一样久远,但由于“聊天运维”(ChatOps),它们的人气已大幅上升。希冯·齐里斯(Shivon Zilis)和詹姆斯·钱姆(James Cham)称 “聊天机器人在2016年迎来大爆炸“,他们绘制的信息图中列出了如今在开发自主代理的十几家公司(详见下图)。

4-trends-in-security-data-science-2

为什么是现在?

主题标签(hashtag)的发明者克里斯·梅西纳(Chris Messina)最近写了一篇文章:《聊天机器人并非昙花一现,它们是一场革命!》(https://backchannel.com/the-chat-bot-revolution-is-upon-us-f3fa9e0b380#.8avo21sqy)。由于当下的科技公司信任生产环境里面的自主系统,这为各种繁琐枯燥的工作实现自动化打开了大门,包括安全领域的工作。

机器人框架部署于一系列广泛的通信平台的时机已成熟,包括Slack、IRC和Skype等平台。很可能你已经在使用这种平台,用于安全事件期间和日常工作期间的沟通,这使得机器人程序非常适合在事件过程中迅速执行任务,还非常适合执行和报告日常检查,比如滚动证书和确保安全标准合规。杰森·陈(Jason Chan)最近也畅谈了Netflix如何将机器人程序应用于安全领域:从安全咨询、批准部署变更,到拥有明显的安全关键字。

接下来的几步

趋势2:将威胁情报纳入到机器学习检测

4-trends-in-security-data-science-3

威胁情报源(Threat Intelligence feed)可以被看作一系列离散的已知不良行为事件――或者更确切的说,可以看作是攻击指示(indicators of compromise)的集合。威胁情报源可能是对手使用的已知恶意文件的哈希、僵尸网络的指挥与控制服务器的IP地址,甚至持续性威胁使用的用户代理字符串。

威胁情报源长期以来被安全界用作时间点检查(用于安全监控),不过我们认为,数据科学界应在2017年将它们与行为检测系统充分结合起来。

为什么是现在?

事实上,任何拥有特定数据集的分类器都存在的贝叶斯方法错误率。降低错误率的标准方法是加入新的信息源。威胁情报源作为一种简易的入口,也是加入新数据源的第一步。

此外,还有可替代的能解释性(surrogate interpretability)――它提供了洞察力,以便解释你的警报。比如说,如果你的机器学习系统判断出某个登录是不正常的,同时该登录的IP地址出现在僵尸网络威胁情报源中,那么我们可以推测:这个登录是不正常的,因为它源自被僵尸网络感染的一个机器。虽然不能打包票,但是这便于快速解释警报。

接下来的几步

  • 结合威胁情报,最简易的方法就是将机器学习系统的结果与威胁情报源结合起来。一种简单直接的方法,就是将威胁情报用作过滤器,用于机器学习系统之后。
  • 另一个办法就是,将它们作为二元特征(binary feature)加入到训练集里面。这带来了另一个优点:你只需要管理一个代码库。但这种方法的弊端是,每当添加一个新的威胁情报源,就要对代码进行更改,并且重新训练和重新部署你的机器学习系统,这可能很繁琐。

在开始试用威胁情报源之前,请记住一点:威胁情报源对其指示(indicators)有着不同的置信水平,因此需要进行一番试错。

商业威胁情报厂商包括:Team Cymru、iSight、iDefense和Webroot。开源威胁情报源包括Project Honeypot(蜜罐项目)。Malware Domain List、Feodo Tracker和Zeus Tracker等跟踪器以及OpenPhish是成本低廉的原型选项。

趋势3:继续投入于对抗性机器学习

4-trends-in-security-data-science-4

对抗性机器学习是指对手可以暗中捣乱机器学习(ML)系统、为其所用。对手可以将系统的误报率提升到很高,那样就能让安全分析员备感沮丧,因而让他不堪重负;或者对手可以提高系统的漏报率,因而保持行踪诡秘,完全不被人注意;甚至可以全面控制系统。

对抗性机器学习是切实存在的;伊恩·古德费洛(Ian Goodfellow)与尼古拉斯·佩帕诺特(Nicholas Papernot)一起写过关于这个主题的许多文章,其中一篇精彩的博文(http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html),揭穿了许多误区――博文的关键是,对抗性机器学习的存在非常有可能。

为什么是现在?

我在2016年写的那篇文章提到了这个趋势,不过考虑到关注度上升以及可能带来的危害,我们一致认为,在2017年也有必要提醒读者真正着手保护机器学习检测系统。除了安全专家们过去在垃圾邮件过滤领域看到了这个趋势, 2016年还出现了许多其他相关例子,涉及各大知名公司。

首先,由于微软的Tay the Tweet机器人开始发表种族主义的言论,不得不被下线。其次,来自康奈尔大学的研究人员展示了他们如何能够剽窃亚马逊和BigML的机器学习模型。最后,对抗性机器学习甚至在2016年总统大选期间亮相,当时谷歌短暂地显示了一名被称为“病态撒谎者”的总统候选人的图片。

接下来的几步

  • 开始为你面向公众的机器学习系统建立威胁模型――尼古拉斯·佩帕诺特以及其他人合著的新文章《迈向机器学习中的安全和隐私科学》给出了一些实用的指引(https://arxiv.org/abs/1611.03814)。
  • 检查cleverhans(https://github.com/openai/cleverhans/blob/master/README.md),这个新的库可模拟针对机器学习解决方案的各种各样的攻击。
  • 仔细检查用户输入的内容,之后才可允许它成为模型的训练数据,对在线学习者尤为如此。

趋势4:面向安全的深度学习

4-trends-in-security-data-science-5

实践证明,目前深度学习已经能够在处理诸多任务时达到人类级别的性能,比如驾驶汽车、按照特定艺术家的风格画画,甚至在处理围棋等任务时能够达到超人类的性能。流量识别、恶意软件识别以及检测指挥与控制服务器,诸如此类的安全任务已经让人们对这个趋势引起了一些关注。

神经网络也能够借助自动编码器和强化学习,实现非监督学习技术,这为异常检测和创建自主系统等任务提供了解决方案,甚至不用标记的数据。简而言之,如果你需要人类级别的性能,并拥有大量数据,以及处理数据的计算资源,那么你可能希望充分利用这个趋势,使曾经被视为只有人类才能胜任的任务实现自动化。

为什么是现在?

曾经深度学习要交给数据科学家的机器来实现,使用含有数百行Theano代码的拼凑起来的python脚本。但现在不再是这样,因为生产级深度学习工具包现在颇有成效,不管使用什么样的软件堆栈,训练庞大模型必不可少的分布式计算资源也司空见惯――你可能已经有一个Spark或Hadoop集群可供使用。

你可能还在生成足够多的数据来训练“数据密集型”算法,比如深层神经网络。数据资源和计算资源融合到其他的分布式计算集群上,并结合让用户得以轻松训练、预测、监控和维护深度学习模型的生产级软件包,意味着现在将深度学习集成到生产威胁监控系统中比以往要来得容易。

接下来的几步

总体而言,对抗性机器学习将继续是关注的主要焦点,深层神经网络会开始对安全数据科学产生影响,就像它已对IT行业的其余领域产生影响那样。与此同时,如果分析员整合威胁情报源,通过“聊天运维”的安全方面使一切实现自动化,使一度手动执行的任务实现自动化,并通过聊天机器人自动信息发送给相关方,就可以实现工作和生活大幅简化。(原文作者: Ram Shankar Siva Kumar 和 Cody Rioux 原文链接: https://www.oreilly.com/ideas/4-trends-in-security-data-science-for-2017

瀚思原创技术博文,如需转载,请联系marketing_ops@hansight.com