最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

日志易:运营商日志大数据分析案例

[复制链接]
发表于 2017-12-11 21:14:01 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
运营商业务运维管理系统经过多年建设,在客户感知端到端管理、基于大数据的运营分析、云环境下虚拟资源的管控等方面能力不断加强,对日常运维工作效率及管理水平的提升做出了重要贡献但随着新技术的不断引入、新架构的不断调整、互联网思维的不断冲击,传统的运维思路极大制约着系统的发展,尤其在“大而全”的系统如何平衡“小而精”的快速能力提供方面,与互联网公司还存在着很大的差距。

与此同时,每天各个业务渠道产生TB级别的业务运维日志,往往被运维人员忽略,加上日志工具的缺乏,业务日志数据的价值远没有利用起来。因此,对各渠道,各环节,各路径的业务日志分析,是传统业务运维管理系统走向“智能运营,统一管控”目标的重要手段,是满足业务支撑系统开放、敏捷、智能化要求的重要保障。


1.png
日志易技术总监黄俊毅

运营商日志分析面临的难题

1、缺乏有效监控手段

系统出现故障时,维护人员对故障发生在哪个环节不清楚,需要手工到各台主机上查看大量的日志,运维成本大,效率低。

业务系统日志记录分散,并且记录不完整,出现故障排查时,有可能找不到对应的日志,因此有些故障很难定位的原因。

2、缺乏海量非结构数据实时处理手段

CDN,DPI,网络设备日志,信令数据,话单数据往往结构复杂,数据量大,缺乏能快速适配千变万化非结构日志的手段,同时也缺乏在秒级返回几十TB级别甚至几百TB数据量下的关联分析结果的手段

3、缺乏单笔业务办理回溯

当出现某用户无法办理某一业务或办理某一业务失败后,无法还原该笔业务办理路径,不利于解决用户投诉、用户分歧等相关问题。

4、缺乏及时有效的关联提醒

当业务系统出现问题,导致相关业务办理异常时,运维人员不能及时了解到系统的异常情况,往往在用户投诉后,才知道业务办理出现了问题,比较被动。

运营商为了解决上述难题,其日志平台也不断升级完善,大致分为以下四个阶段:

2.png

图1 日志分析平台的演进

大部分运营商的日志处理技术仍处于第一、二阶段,其日志平台无法解决当前的日志分析需求,只能满足基础运维。针对运营商日志分析面临的问题,日志易(日志数据实时搜索分析引擎)提供实时灵活的全文检索,解决运营商目前面对的常见问题。

场景一:业务端到端日志分析

典型场景:用户进行手机话费充值,已扣款成功,却没有显示到账。当前运营商面对的问题是:业务所涉及的完整日志由多台机器产生,并没有存储在一台机器上,工作人员只能依靠人工慢慢查找,效率低下。如果日志能统一存储、做到实时监控,就能快速定位故障原因。

(1)快速定位失败环节

一项充值订单要经过十几个模块的处理,通过日志数据采集模块,日志易可以在一分钟内把所有订单链路的数据串联起来。客服通过一个简单的搜索界面,输入手机号,就能在几秒钟内得到结果,清晰的呈现出充值失败的原因,此时客服只需要把手机号及工单信息派送给出现故障的相关厂家即可。

3.png

图2 客服视图:一键查询充值结果,快速定位故障环节,精确派单

4.png

图3 运维人员视图:自动钻取业务处理各环节日志明细

通过运维人员视图,只需要在界面搜索手机号以及流水号,就可以查看到这一笔交易的多达12个环节明细日志信息,快速定位故障原因。

(2)宏观掌控业务状态

通过局方视图,可以实时监控充值业务关键环节的业务量、成功率,使局方在微观层面上掌握业务系统的健康度情况。

5.png

图4 局方视图

场景二网维设备监控

伴随海量数据的产生,网络故障也愈发多样性,运营商面临着从散乱告警到精准化告警的转变。

监控网维设备时,用户通常会收到很多敏感操作告警以及闪断告警,其中很多并没有意义。要做到精确告警,往往需要告警事件同时满足多个规则,这就需要进行多环节日志数据的串联。例如,对爱立信SAEGW网元高危操作的实时监控告警,需要满足四个条件:

1、网元名称相同;

2、第1条日志出现关键字A:InvokesetMo()

3、第M条日志出现关键字B:关键字(厂家提供)如:“creation”

4、第N条日志出现关键字C:command='commit'

注:M>=1;M>N;

满足上述四个条件后,才能认为是一个高危事件,从而衍生出一条日志告警规则。

6.png

图5 网维设备监控告警示例

图5呈现的高危告警结果,是通过日志易平台提供的SPL(Search Processing Language)将日志进行串联分析得到的。SPL类似SQL,并支持管道符命令,使多项操作可以顺序执行,实现复杂关联运算,专门用于处理非结构化数据。用户可使用SPL灵活高效地完成告警条件的设置,实时筛选出符合规则的事件并发送告警信息。

场景三:CDN数据实时分析

CDN服务商了解网络状态时,通常需要进行多维度的数据统计,例如响应成功的请求、按照节点统计命中/不命中比例、TS下发速率及带宽峰值等。然而所需分析的数据体量巨大,一天可能达到几十TB,用常规方法很难满足实时统计的需求。使用日志易可以做到海量数据的准实时检索,能在几秒钟内返回结果,同时用户可以指定时间段进行分析,并建立自定义仪表盘方便查看结果。

7.png

图6 CDN数据实时分析示例

场景四:家庭宽带数据关联查询

传统做法需要先将数据存入数据库,然后通过SQL实现查询。这种方式在业务繁忙时,极大地增加了数据库压力。如何更快速、更有效地解决用户家庭宽带延迟问题?日志易提供了新的解决方案:通过分析通信数据中记录的日志信息发现问题根源。用户只需要根据家庭宽带账号就可以实时计算通用码率判断视频通话质量、网页通信质量等信息,日志易提供同一界面将这些信息集中展示,帮助用户快速定位究竟是哪一个环节有问题。用户只需通过日志易的SPL语言,即可关联查询出所有与该帐号相关的实时性能数据,实时计算出相关家庭宽带指标数据。

8.png

图7 家宽数据关联查询

关于智能运维

日志易提供了完备的智能运维方法集合。

(1)异常检测

异常点发现是最简单的智能化运维,适合没有周期性、存在异常突变的场景。通过实时查询,如果发现3 ‰以外的数据,就认为是异常。

(2)周期性预测

运营商数据中CPU使用率、内存使用率等都是周期性数据,日志易引入指数平滑等算法,通过机器学习,用户只需简单的设置就可以进行周期性预测。

(3)多元神经网络预测

在运营商场景中,最常用的还是多元神经网络预测,例如对于容量分析——容量不仅与CPU有关系,也可能与业务量、网络带宽IO甚至UPS供电都有关系。通过机器学习算法,将这些元素作为参考因素,并通过自动参数调整,得到多元预测曲线,从而进行容量预测和规划。

9.png

图8 多元神经网络预测


本文有日志易投稿发布,未经允许禁止转载。

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 01:10

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表