分布式前置机器学习在威胁情报中的应用（附PPT下载）

发表于 2015-11-19 22:25:33

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

今天讲的是比较新的概念，我们在用分布式的前置的机器学习引擎做一些跟威胁情报相关的事情。

大家觉得分布式和前置机器学习又和大数据平台背道而驰了怎么回事？所以我讲的时候很担心有没有人会有挑战说这个东西能不能来讲，有一天正好有一个朋友在圈里发了一张图跟我们的想法是一模一样的，这个实际上是NIC里面的一篇文章，它要做的是什么事情？就是要把数据分析从大数据的平台向前移，前移到入侵点威胁入侵发生的地方。

如果了解前了一阵，看过NIC的总架构的话，就知道IAD一直以领先的技术研究而著名。实际上我们也看到了，这个思路不是我们自己一个人在想，很多人也都在想，为什么？实际上问题我们都知道大数据分析平台现在很流行了，刚刚才投入使用的阶段，现在我们要夺分布式，分布式是什么意思？我们把数据分析的引擎下放到每一个终端上，每一个服务器网络的节点上去。前置都是这个意思实际上我们做这个事情是希望跟主办方的主题扣上，我们想看到的是威胁怎么样发生的。

现在威胁防御已经是一个争分夺秒的时间竞赛了，我选这个例子是因为前一阵子有一家一直在盗取icloud域名和账户，实际上代码来看他并没有这个能力。这是我们抓到的真正在iCloud账户钓鱼的域名，我找了一个新的刚刚注册当前上线下线的话是昨天，威胁情报的有效期是三天。iCloud背后的黑产链条做得非常戳，诈骗各式各样的事情都可以做。这不是人工来做的，我首先是做的恶意域名识别，还有网页内容的分类，这么两个技术来抓到的，实际上也是从大量的数据域名解析力抓到的，恶意域名识别的话，今天前两位已经讲的很多了，如果大家看过原来的分享的话，也知道我们也做了不少的工作。

我们在企业中也经常地看到类似的攻击的手法，就是定向攻击，并不是说iCloud伪装一个outlook的页面，用鱼叉的方式发到公司的邮箱，实际上是让你改密码，管理员说密码过期了，强度不够，这也是定向攻击的手法。这种钓鱼攻击实际上出现的时间只有很短的三天马上就下线了。

所我们现在在做威胁防御要想防御的话，其实有一个共识就是尽可能在供给链的早期发现威胁，早期发现威胁的好处是第一可以争取防御的空间和时间，怎么样做到这一点呢？第一个方法是利用威胁情报。第二个就是我们在接触点实施分析，在接入点实时分析的好处是什么？

我们把机器学习引擎前置，其实大数据分析平台是有很强的滞后的问题的，因为大家如果做过这种数据分析的话，知道数据采集到大数据平台再由人员或者是机器学习去做的话，实际上它的一般来讲都会滞后很长时间。

然后如果我们能够把发现威胁的时间往前移的话，这个应急响应的时间会缩短很多，如果把机器学习引擎前置的话，大数据平台有很多关联性的分析，很多海量挖掘是做不了的，所以这个不能解决所有的问题，但会给我们在威胁防御的竞赛中有一定的竞争优势。所以，如果我们想一想今天主要是讲威胁情报，那么威胁情报到底在利用的时候就是两个，一个是威胁情报的生产，我怎么样才能生产威胁情报？

其实生产威胁情报就是发现未知威胁的过程，因为首先发现了未知威胁才能生产情报。当然，如果这个入侵要抓不到的话，你永远不可能生成情报，所以这个也解释了为什么大家在原来方向过说威胁情报没有一家是全的，因为它攻击本来就是分散的，一个再大的厂商能接触到的入侵总是有限的。我们要利用威胁情报的话，实际上给我们带来的优势是什么？就是跳过了威胁分析的过程，你不用再分析域名、木马，不用再分析CMC，不用再分析什么样的传播机制，只要利用的分析情报就可以跳过分析的过程就可以采取行动了。

我们是一个创业公司，所以我其实一直在想威胁防御要怎么来做，这么大一个热点市场不参与实在是说不过去，威胁情报一般来讲第一个都是只有大数据这么一条路，大数据要生产威胁情报。这个路是非常正确的，但投资是巨大的，我们刚才也定到了360在云端有4万台服务器，这个对创业公司来讲是不可能完成的任务，所以我们有没有什么其他的路去走？

实际上大数据分析平台也有自己的问题，包括基础设施不堪重负，昨天美国的前司令不停在说too much data，他认为从业人员来讲这个是不好的趋势，因为他觉得大数据是解决威胁防御的关键的技术。但我们工作在第一线的成天想着帮助用户解决问题做工程的人，都会觉得数据实在是太多了。最近大家都在讲说有一些人可能用终端上安装的东西回传数据，如果真正地从事过大数据，从事过数据采集工作，就会发现这是一个相当困难的工作，不知道大家有没有经验，在企业里管10万个终端，想下发策略采集日志都是非常头疼的工作。这个事情是带宽是永远不够的，所以要采集很多的日志，采集所有的样本实际上是不可能的事情。

下一个是存储，我把这些数据采集和平放在什么地方，斯诺登爆料说NIC的 map data也只存半年，你要投多少的资源在基础设施上才能把数据存起来？还有是查询分析，这个360的天眼能做到秒级查询是非常不容易的，背后需要大量的技术人员不停地调优。这是大数据安全分析平台难以回避的问题。我其实有很多很细节工程化的问题都没有进，比如说采集数据的适配，一个大企业里有上百家厂商的设备和产品，你怎么样把日志做适配都是很困难的问题。

还有一个事情是态势感知，因为态势感知现在也是非常热的，各个国际组织也在讲国内也在讲，我们其实经常看到大家把SOC、SIEM包装一下就叫态势感知了，让我们来看看真正的MITRE怎么讲态势感知，它不是收集一些战术层面的数据，而是要跟业务紧密地相关，要能有真正的影响，能对业务和安全有真正的影响，它只是要脱离开要超越我只能简单地采集数据，我简单地菜单日志，简单地采集漏洞和用户登录的行为，我要发现威胁的人，趋势各种各样的目标，这样才叫态势感知，如果我要想真正地做到态势感知，还是要借助很多威胁情报和事故分析，才能超越SOC，要不然大家讲了半天态势感知，做来做去最后发现又是做了SOC。

我们怎么样看威胁情报的应用，我们认为还是以价值为导向，什么叫价值？就是在企业中能辅助业务，给业务创造价值，降低业务的风险，这才是真正以价值为导向。

回到刚才的问题，你数据太多，是的，但是数据是没用的，除非它能够增加价值、能够帮助管理层做决策，除此之外的数据其实是没有什么用的。所以我们要找到什么样的目标？

举一个例子，这是我们已经有做到的，我们可以帮助大家看到关键数据在企业中风险分布，我们可以帮助大家真正地看见企业到底有哪些数据，有哪些类别的数据，他们这些数据都在什么地方？哪些数据正在承受着风险，这实际上是往深了看见，而不是简单地采集一些日志。还有业务系统的行为日常，业务系统会不会有异常的连接、异常的数据导出和内陆，还有木马扩散的路径，如果真的是做到了这些，才真的是为业务创造了价值和降低了企业的风险。

在这个基础上，我们就要机器学习的引擎前置，它有什么样的能力？现在行业内对威胁情报的评估都是公认要保留有情境的信息的情报是最有价值的。价值体现在什么地方？

首先是有关联性，你的业务场景和很多的环境都有关联，可以行动也可以预测。我们要做的事情是，分布式前置引擎，能实时地找到企业中的关键数据是什么地方，不管是业务数据是结构化的还是非结构化，还是企业运营的数据，像财务报表，我们要知道数据在什么地方，哪些是有风险的，还有是木马的分类，为什么？

因为木马分类我稍候会多讲两句，用机器学习做预测，还有恶意的域名，还有行为异常。行为异常有很多种类型，比如说特权用户，其实特权用户的滥用在企业中是非常高的风险，是给业务带来非常坏的影响的，还有像网址分类，我刚才举的例子iCloud钓鱼我们用了恶意域名识别和网址分类两个技术来做的，它是通过识别网页的内容来做分类的。

这样在很多时候比如说刚才讲的用鱼叉钓鱼的方式发送邮件到企业员工的信箱，用管理员的口吻说你的密码过期了，让你重新地登录密码，这是非常严重的问题，因为现在大家都在做SSO统一登录，一个账户实际上可以上所有的账户，还有是流量异常。我们把能力组合起来，把它打包前置放到传感器、放到终端和网络的端点上，可以最大程度上保留相关的contax。

机器学习给大家一个概念，首先大家讲无监督学习，给他一堆原始数据，会自动地聚类算法给一些结果，你把聚类的经过拿来做训练数据，用人工干预一下这就叫做有监督的机器学习，它可以生成一组规则，放到生成器，给他更多的原始数据就可以翻倍。机器学习的好处是可以按照这个套路定好了规则之后可以好不疲倦地做，如果是人工分析师的话，这个做木马的识别，现在一个熟练的病毒的分析师，在分析一个复杂病毒的时候基本上都需要半天到一天的时间，可能简单的病毒看半个小时就过去了，花得时间再小但还是比机器的时间长。如果我们有很好的大的规则库的话，可以让机器不停地做。

再讲木马的聚类分类，有时候太技术了不太好在短时间内讲清楚，在传统手工分析的时候会看到做木马同源分析，昨天在APT分论坛也有嘉宾在讲，我怎么样做木马的同源的分析，他用的方式有些跟传统手工方式分析是比较接近的，大家看到都是通过逆向工程来做的，有哪些功能模块和列表可以列出来，有什么编程错误？加密方式和免杀的对抗手段，这是用传统的逆向工程来做的。

但机器学习完全是另一个思路，首先最基本的思路是，如果收益这么多这个水平有很多水平高的人，所以写的漏洞利用的代码其实在一个家族里都是共通的，基本上这段代码都是复用的，还有通信的代码，跟CNS做通信，整个DGA的算法都是通用的，所以有大量的代码辅用，这实际上是对机器学习的非常获得特征。

对人来讲这是看不出来的，相同的代码在相同的编译器编译出来的结果、顺序和方法都是一样的。但你人怎么去看我连着20个、30位代码的顺序都是相同的，这个人是没法儿看的，但机器可以毫不疲倦地不停地看包括函数的顺序逻辑，编译器的特征，因为编译器的特征也是很重要的，编译出来的信息是完全不一样的木马的作者写这些东西的时候还要用自己熟悉的编译器来做。机器就可以说我来做木马的同源分析。

还有关键数据行为异常，所以我们在这方面有比较深的积累，可以监测到关键数据在企业上的动向，我们也可以经常地抓到外部的数据和泄漏，这是典型的行为分析，昨天因为美军前司令也在讲行为分析也是大势所趋。

举一个例子，我们很容易地找到一些机械，这个部门的终端用户平均每天打开多少次的关键数据如果是3倍、4倍甚至是10倍的关键数据被打开的话，很也可能被入侵或者是内部员工离职自己要抽取数据，我们也确实是抓到了真实的例子，一个目录一个目录的压缩，两兆一个包，外传到FTP，这实际上是外部入侵的结果，把这个数据传出来，之后要对目标动手，有85%以上的APT都是要投取数据，这是面对APT的最后一道防线。比如说像大量的访问恶意域名用DNS隐蔽隧道来外传数据，这个我在之前也分享过这种点滴泄漏。

我再讲一讲其他的场景，比如说恶意域名相关的威胁几位嘉宾也讲了不少，我们也分享了一个PPT给大家，还有宫总讲的让你必须下载的一个东西，这种drive-by的下载和内置的木马也是比较普通的，怎么样防这个东西呢？

网址分类是非常有用的。为什么？因为大量的下载的话都不是出现在正规的网站上而是擦边球，利用大家感兴趣的，可以很容易地下载一些东西，比较感兴趣的东西愿意付出一些代价我愿意等几秒钟可以下载文件去运行，或者是可能为了要肯某个网站把Flash就给打开了，视频网站像实时美女主播的网站一打开以后就种了一个木马。

还有是非授权的特权账户访问，这个实际上在企业中也经常见到，一个部门的特权用户跑到另外一个部门，用另外一个部门的终端登录系统，这是非常典型的被盗取的，还有异常登录行为，像这种很快的会发现一个终端上会很快地试图登录很多的业务系统，优惠换到另外一个终端，用另外一个用户名试图登录很多的用户系统，而且这些行为都是发生在凌晨的时间，像Tor/P2P这些我不细讲了。

还有文件的内网扩散，因为现在实际上有很多免杀的病毒，而且昨天也看到了一位嘉宾分享的时候知道了最多可以释放十几次的文件，第一层第二层完全没有任何恶意的，这个怎么样判断？这个判断有一个非常好的办法是看它在内网扩散的速度，因为大家都知道实际上一个文件如果是正常的，一个样有木马的Word，正常的Word文档一般是在一个部门里传输的，或者是邮件的传输都是有限入次数的，一天之内就传到了几千台机器上，这个肯定是一个可疑的文件。

还有在威胁情报中还有很多利用上的难点，比如说推送，天眼是把情报放到企业的服务器说，其实每天新增的威胁情报数量很多，C&C的域名很容易就达到几万条，根据我们的经验我们扫了一个省一天的所谓的DNS解析，我们发现了70多万恶意域名，有大概四五十万是钓鱼的，剩下的很多就是C&CDGA算法生成的，如果把这个数据还有钓鱼网站以及木马家族的变异样本和入侵的手法TTP推送到终端是非常艰巨的任务，这在企业里做是很痛苦的。

我们还是可以把机器学习引擎前置来做到，我只要做好的更新的成本非常低，不管每天生成了多少，之前我们一天就可以生成5万个，还有我们利用域名与网页内容协同来防止钓鱼，比如说outlook外部的页面让你更改密码，如果只用域名是不够的，我们先发现网址再用内容实时做，还有木马家族的同源变种预测，因为有很多木马都是免杀的，我们用机器学习的办法来做预测，还有异常行为的分析。

我们再讲讲碰到实现的过程中有一些要点跟大家分享，实际上要做机器学习的引擎前置的话，有这么几个需求是必须要满足的，

第一是轻量化，不可能搞一个巨大无比的引擎扔到前端终端服务器上，而且还非常耗资源把所有正常的业务都给瘫痪了，还有有比较强的针对的场景做DGA的就做DGA，性能要高，不能占用很多的CPU，尤其是针对解释执行的那些库的话，CPU的占用和速度都是很成问题的。

产品级的稳定要推下去不能成天去更新，如果成天更新就完全把机器学习引擎前置的优点给抵消了，还有是改进响应速度，这就很难用开源做，因为开源所有的机器学习库都不行，不管是什么的，也没有什么选择，人家都是打包好的你自己也拆不出来，只有一块扔下去，还是很大，只有通用的算法实现。性能也难以接受，还有各种bug改来改去，开源的东西就是这样的，自己更新你跟不上它的速度，自己改的话，下一版还要做合并，工作量是非常大的。

帐号		自动登录	找回密码
密码			立即注册

分布式前置机器学习在威胁情报中的应用（附PPT下载）

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1