最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

阿里云监控体系现状概览

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-16 15:33:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本文根据InfoQ中文站跟阿里云产品技术部产品总监马劲的在2014年10月初的一次电话交流整理而成,褚霸对本采访内容亦有所贡献。在本次沟通中,马劲对阿里云监控体系的现状进行了简单介绍,涉及到监控的覆盖面、监控粒度、故障识别、OpenAPI的开放进度等方面。
嘉宾简介
马劲,花名竹蜓,来自阿里云产品技术部,是阿里云四大主题(云服务器,存储和多媒体、数据平台、中间件)的产品总监之一,负责阿里云所有中间件产品管理,目前负责管理的产品有OCS(缓存)、MQS(消息队列)、ACE(云引擎)、ESS(弹性扩展)、PTS(性能测试)、Open Search(开放搜索)、ONS(开放消息服务)、云监控。竹蜓之前在IBM有13年工作经历,曾经担任云计算软件全球产品总监、大中华区软件VIP客户服务总监、大中华区软件培训负责人、攻城狮、程序猿等多个职位。
背景概述
监控体系是云计算基础架构最重要的组成部分之一。阿里云监控体系有两个视角:运维自己的集群监控体系,由技术保障部主导;以及用户视角的监控产品(如云监控服务),由产品技术部主导。运维的工作着眼于掌握每个服务的可用性、可靠性数据,提升发现问题解决问题的速度;客户的需求则是可以方便的看到自己阿里云资源的状态,包括资源的稳定情况和资源消耗情况等,以及客户基于阿里云的应用的状态,例如应用是否可用,性能如何。
当然,无论是何种角度的监控,底层基础架构是共享的。
过去一年主要完成的相关工作包括:
  • 为阿里云的各个产品逐步建立全链路监控,完成对所有服务各个模块端到端的数据采集(运维视角)
  • 在2014年4月开始“云监控”产品的公测,目前包含站点监控、ECS监控以及自定义监控。ECS的CPU、内存、IO、存储等资源的状态,现在所有人都可以通过API项获取(用户视角)
  • RDS、SLB在“云监控”上的接入正在实现当中(用户视角)
RDS的监控
褚霸:RDS全链路监控现在基本都做完了。RDS较早做到全链路监控,是因为用户对数据库的QPS和RT变化非常敏感,倒逼着我们对系统更深入把控。
这就要求我们能够从网络(交换机)、操作系统、LVS、中间层、数据库整个链路能够从用户的视角收集到详尽的数据,通过流计算平台聚合、对比来看到异常,先于用户发现变坏的趋势,在更短的时间内做出响应。
全链路是个麻绳,需要整个链条上的每个部件都暴露出足够多的信息(特别是用户触发的行为动作),透过这个麻绳串起来。比如说RDS中间层统计数据在内存中按照树状组织的,基本上所有的内部模块都有详细的运行状态,日志和诊断代码在中间层中占比达到30%。这些状态都在内存中,抓取统计数据的代价是恒定的,精细到每个用户的链接,再聚合成用户级别,主机级别,集群级别在监控系统界面上关联展现,指标超过150个,基本可以做到白盒,对系统的运行了如指掌。
监控粒度
ECS上的CPU争抢情况已经按秒级采集数据,而对于IO访问的访问请求监控是更细粒度,统计到每个IO访问的响应延时。
监控的目的提供稳定的服务,在出了问题以后能尽快处置,即使做到十毫秒级,如果还是基于事件,问题报警,也是事后诸葛亮。监控希望能做到事前分析与预测,所谓后发先至,避免发生影响服务的事件,这本身是一个IT数据的大数据应用的课题,例如我们正在分析VM的CPU消耗周期变化尽可能把CPU密集的VM均匀分布到不同的物理机器上,同时正在开发动态热点迁移技术进一步提高用户体验。
做到秒级不是目标,做到主动预测、主动干预化解问题,避免服务对外不可用,才是我们的目标。
故障预测
基于全链路的监控与分析平台,我们对每一次的故障进行review,将故障原因的相关指征提取出来,形成预警方法。有些故障是由软件更新的bug触发,不过bug触发的问题如果能够提取为指征,也可以回归到预警系统。另外,通过异常分析也可能找出可能未知的问题,报警让人来分析。
全链路监控与分析平台现在在RDS上得到应用已经取得不错的效果,ECS、SLB和CDN等正在应用该平台。
弹性计算服务
阿里云正在做Elastic Scaling Service弹性计算服务,原计划8月发布,但是觉得还达不到公测的质量水平标准,所以有所延迟,预计近期(10月)会推出邀请测试。
第三方监控服务
其实公测阶段的云监控产品目前还不太完善。比如ECS实例监控,现在还需要客户手动下载安装Agent,这对于ECS服务器数量多的客户是工作量很大的,可以做得更加自动化。
阿里云的云监控会提供更多服务,同时也欢迎第三方能够针对阿里云开发一些高级的监控。目前市场上已经有客户自己安装了第三方监控可以在阿里云上使用,包括商业监控软件和开源监控软件对阿里云资源的监控,也有客户自己订阅了监控SaaS服务来监控他们跑在阿里云上的应用,包括一些国外的SaaS监控(如New Relic)。
阿里云的云监控提供OpenAPI,目前已经在针对小部分可信用户进行内测。内测资格目前只有经过单独审批才能拿到,主要针对企业客户。因为API涉及到权限、流量等安全因素,所以这方面会非常谨慎的逐步公开,一方面要借助内测用户的尖锐批评来改进,减少bug、提升用户体验,另一方面也需要把文档更加完善起来,具体的时间表尚未确定。
总结
阿里云是非常技术的产品,但归根结底是为了让客户用的爽,解决客户的问题。阿里云总裁菲青经常带阿里云的管理者去跟客户沟通,管理者也被鼓励尽量带着一线员工出去了解客户。现在每次阿里云发新的feature之前,产品经理都会先把demo发到客户群里,这样在上线之前就能收集到部分反馈。今年9月初,阿里云管理者大会上搞了“火线24小时”的活动,全员自由组了几十个队伍去研究客户工单,在24小时内针对工单内容设计解决方案,最后选拔出来的8支队伍提供的方案在大会上讲演之后立刻往下迭代,不需要立项、审批、排期。这样的活动还会不定期的搞下去,只要客户有问题,阿里云就有动力持续的努力解决。
做阿里云,技术上固然有很多挑战,但最大的挑战还是对客户的理解。因为业务是很丰富的,比如客户提一个要查看某一个监控项比如缓存命中率的需求,我技术上实现不难,但做出来的东西未必是客户想要的,客户可能查看数据主要的目的是找到应用出了什么问题,具体观察的时间,观察到以后如何处理。唯有真的去客户那里和客户交流,深入了解客户使用的场景,了解客户的痛点,才能做出真正满足客户需求的服务。
工单,论坛都是是很重要的产品改进输入,我们的产品经理和管理者会认真看工单,不断转化为产品改进。恳请大家把您的问题告诉我们,“向客户学习,陪伴客户成长”是我们的理念。


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-6 21:31

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表