曹国喜: 云环境下主动式端到端IT应用运维监控平台—

曹国喜: 云环境下主动式端到端IT应用运维监控平台

2017-08-07

曹国喜

大家下午好！我是云智慧的曹国喜，刚才闫总和程总都讲到我们云的评测包括提升服务，其实我们也在做这件事，只是我们做的更实际一些，我们是以产品和服务，我们前面不管做可信云评测也好，做客户服务也好，我们最终目的是保证用户体验，我们如何做得更好。这里面就有一个很技术的工作，我要知道我当前的服务包括产品是什么状况，这种状况首先是通过监控，云智慧一直是在行业做性能监控，做了很多年。在SaaS可以说当时市场评测是第一款在市场上做SaaS做得比较成功的一家企业，但是现在云智慧延伸出来不仅仅是做主动式监控，接下来我分享一下我们在主动式方面和用户使用效果。

我们讲云迁移最早是从IDC迁移过来的，我们在转化过程中，现在陆陆续续都会迁移到云上面，包括公有云、私有云、混合云，在云平台上跑各种应用和服务，但是还是离不开传统IDC，现在更多大部分企业面临的是组合环境，因为我们传统IDC，也有新的云平台，公有云也好，私有云也好，在云平台上基本上是混合的环境，这个混合环境还是很复杂的，各自应用，有对外提供服务，有面向To B，有面向To C的，但是这里面临的问题是各种业务量和资源量非常大，第二是比较散，各式各个的，因为我们以前做信息化的时候，它的业务系统大家拼命上，现在旧系统还在用，新系统还在建设，它实际上很散。这样不管做管理也好，还是运维分析也好，还是运维也好，面临非常难的问题是，一旦出现业务方面的问题，或者用户体验出现下降，或者面临用户投诉处理问题的时候非常困难。另外还有一点，一般互联网企业包括传统企业，实际上业务种类非常复杂，而且业务量每年也是逐年提升，随着业务发展，面临很典型的问题是业务处理特别慢。现在在传统互联网企业，我们258原则，到8秒以后用户基本不会用你的了。但是在移动互联网阶段，258秒原则不太适合了，已经很苛刻了，当用户感觉你慢的时候就没有耐心用了，但是慢的原因是什么，我们是很难知道的。尤其有一部分在云上，有一部分在IDC上，这种慢的时候，会出现一些定位困难，而且特别苦恼，你没有很好的办法去解决。

这个图我们体现的一个宏观的图，用户真正用我们业务所经历的不同环节，前面用户有传统PC用户，也有移动端用户，还有将来的其他各种类型包括Pad用户，他访我们业务的时候，中间会经过我们的网络，而且中国网络是南网、北网、运营商、各种有线，网络环境比较复杂。还有在访问企业业务系统之间，它还有安全保护，有防火墙，最后才真正访问的企业所在业务系统，而这个业务系统可能在IDC机房也可能在云主机，不管是阿里云、亚马逊，包括今天来了很多云厂商，在云平台上我觉得大家陆陆续续都会用到各种，其实我们本身也是云平台用户，我们各种云的监测评估也是通过这个产品支撑的。所以包括客户包括我们也面临很多问题，业务存在云上，云上有主机，有数据库，会面临各种各样的问题。云智慧在这些年通过自己的积累，我们在这方面做了一些工作，不同环节做了一些数据监测，同时监测我们可以了解到各个环节新的情况，可用性也好，数据正确也好，我们利用数据提供一些评测指标，依据评测指标了解到我们服务当前运行到什么情况，从用户角度来说，用得到底是好还是不好，好到什么程度，我们自己心里有底，也可以把可信云作为评测手段提供给客户，或者对你选哪家的云可以做很好的评测依据，选型依据。

我们做的事情有网站、网络、各种应用，还有API，API以前我们谈得不是很多，但是现在是API经济，尤其我们到云环境去以后，甚至我们用一些微服务，各种服务都是以API方式提供的。以我们切身的经历，我们每天都会用支付宝、微信、银联进行支付，支付里面提供的服务都是用API监控，这里面我们提供了很多支持。从传统互联网上，我们每天访问网站的时候大部分都是网页形式提供的，现在我们讲网页内容非常丰富，声音、文本、音视频、图片非常丰富，这有时候也是我们感觉用户体验，访问速度非常慢的原因。在这方面我们做了一些分析，根据分析结果提供了一些优化建议，加上用户使用起来就感觉非常快，也非常爽。实际上在我们传统企业包括互联网企业，互联网企业可能做得好一点，但是传统企业做得差一点，就是服务，这个往往是被大家忽略的地方，大家往往说我的业务出现问题了，查问题靠资源，磁盘、内存、I/O没有问题就OK了，其实不是那样的，那只是一个环节，我们的业务是承载在服务上，服务上有可能跑在不同容器上，这些容器包括其他业务组件好和坏，也会影响到我们服务的可用性和性能。另外包括我们也有很多客户用全部迁移到Hadoop上了，实际上我们做的这些事目标就一个，就是第一时间发现问题。而且最好是在问题发现之前，就把这些问题提前知道，一旦知道以后就赶紧采取措施，把问题修复掉，或者有些问题即使避免不了，也可以把损失降到最低告知用户。

从去年到现在，我们网络环境出现了很多事情，今年也出现了，包括去年的次数特别多，各个IDC机房出现很多故障，出现故障以后，整个IDC服务都宕掉了，当时我们都主动报过好几次，我们发现故障是第一个发现的，我们把这个信息告诉别人还不相信，别人是过了十几分钟才发现的，大家想想各种部署在机房，出现故障你居然不知道，这样面临一大堆客户投诉。另外是我们发现问题以后要准确定位，问题出在哪个环节要快速知道，而且原因是什么，有些原因当时能够解决，有些是当时不能解决，但是至少可以把业务恢复起来，事后再回溯追溯，发现问题当时的现场场景是什么，我们也提供了一些定位数据和依据，我们叫做出问题的快照。第三，我们做这些事都是为了不断改善服务和提升服务效率，我们大部分IT同事在整个公司里支撑过程中都背了很多黑锅，有很多黑锅你可以背，但是很多黑锅背的也是比较冤的，因为很多原因不是我们的原因。因为出现问题的时候，别人首先想到的是不是你的运维有问题，或者资源不够。所以我们不仅要帮你看着系统好不好，另外是帮助你把责任划分清楚。另外我们提供服务也提供服务级别协议，通过我们的服务监控，提供从第三方角度提供很好的证据，证明你这个服务通过这段时间的监测和评估，可用性也好，性能也好，都是比较理想的，比较好的，我们可以把这些展现给客户，对于你的客户来说也是一种信心，我的服务是7×24小时的，是可行的。我们有一个监控神器，就是绿色的猫头鹰，大家可能也用过，这方面它做得确实很细，很到位，一旦发现一些问题能够提前知道，准确定位，而且告诉你如何优化处理。

具体来说，我们网站不仅仅是指外部配比，还有多东西，只不过我们呈现给客户的是以网站的形式，但是我们现在呈现给客户的是以App，更多是功能性反馈到前端，不只是网站。我们在全球有很多监测点，通过监测点发起真实访问网站，通过网站访问信息判断网站是不是特别好。其实你的网站如果我去访问你不行，可能是网站本身宕掉了，另外一个层面可能是链路方面的问题，就像去年58网链路出现问题以后，你的网站再好，但是用户访问不了。另外还有一点，像我们在外面出差，你要访问公司页面，像SMTP，邮件服务，游戏端口都暴露在外面，我们这也叫网站应用，另外是视频类，像新浪也好，基本上都用CDN，我们碰到很多情况，你在选客户CDN的时候，CDN当然人家会比哪家CDN好，其实CDN到底好不好，我们可以提供评估依据，通过我们平台监测可以了解CDN加速效果和布局合理性，从我们服务提供商角度来说，把最好的服务给客户。从用户角度来说感觉用户体验很好，所以CDN用得非常多，CDN也有宕机和节点分布不好时候，这些方面我们也提供了很多依据，支撑你判断这个CDN是不是像它承诺的那样CDN加速效果特别好。

另外我们访问网络的时候，你的网页信息呈现之前，我们有运营解析，现在运营解析因为网络安全原因，会出现你访问百度把你定位到新浪，实际上这种是被篡改了。尤其很多政府网站，对于有些网页篡改是非常敏感的，这些方面是非常重要的，可以很好的帮助到大家。另外我们通过不同的监测数据能够了解自己的情况，如果你的同行或者行业能什么情况，我们也可以通过同样方式了解行业情况，这样我可以知道我当前提供的服务和行业对手或者同行标杆我们差距在哪儿，如何进行优化，所以你知道对手对方情况，我们就可以知道将来往哪个方向去改，有哪些改善空间。

从地图上就可以看到，你的网站也好，或者你的CDN加速也好，哪些地方加速效果好，我们通过一个地图不同颜色告诉你，红色就是告诉你这个地方速度非常慢，响应时间很长，但是绿色效果相对来说好，这也是通过地图我们可以直观了解到，你的用户体验也好，响应速度也好，很直观了解到各个地区用户，访问你的业务它的整体性能和整体速度，没必要说用户来投诉以后说哪个地方不行了，这方面你可以做很好的评判依据，有可能是用户访问你，有可能不是你的问题，但是如果用户访问不好，一定会投诉你告诉你，所以我们通过地图统计，包括各种类型报表给你数据支撑，起码可以做到心里有数有底。像红色的线，这个地方网络出现故障，如果客户投诉到我，我很快跟客户做解释，你的骨干网可能出现问题了，我们的系统运行很正常，你给出合理的解释，这样用户感觉体验也会比较好一些。

当然出现故障以后，我们会有故障快照，我们把故障信息记录下来，一个是方便后续进行事后分析，当然优先我们肯定是先恢复起来，保证服务连续性。但是事后你一定会追溯什么原因产生的，后续如何避免和改进，所以我们提供很多故障信息快照，可以帮助你分析很多原因进行优化。

其实网页方面我们还是做得比较细的，比如你访问百度网站，百度网站有图片、音频、视频，这个网站访问慢到底是百度后端服务器出现问题，还是网站内容太多了，还是中间有视频，我们对网站每个元素做了可用性和响应时间分析，这样我们不仅仅从网页到元素的据别，包括中间的图片、视频我们进行分析，通过分析我们可以知道全球不同地域用户访问网站的因素，比如我们经常访问网站出现404，在网站访问评估方面，根据我们业界标准也有几十项指标，每项指标会依据标准评测，看一看你离这个标准有多远，哪些地方可以做一些改进，比较贴近，或者提升，优化效果，我们会依据监测数据提供优化建议。这样我们可以知道全国各个地区，包括运营商，因为运营商线路也是不一样的，也会影响到用户体验。不同地区，尤其是跨国的，国际漫游，包括国内南网、北网转网的时候也会出现延迟，这些都会影响用户体验。所以通过网页分析可以了解的用户打开首页的时候，因为首页是第一个面向用户的页面，所以第一印象非常重要，如果第一页面给用户展示非常快或者非常丰富，或者没什么错误，我觉得用户体验肯定比出现错误或者转半天转不出来的效果好一些。

2017年包括随后我们说是API经济，大家原先重视程度不够，现在我们发现客户意识非常非常强。比如我开发一个应用，可能另外一个部门有这个应用，两个业务之间有交互，我可能会访问你的业务，但是业务提供大不能是以API方式提供的，我的应用如果终端用户用得不爽或者出现问题，其中一个原因有可能是我调用别人的服务，这个服务以API方式提供，有可能出现API不可用或者应用非常慢。比如我们在收银结算的时候，用刷卡怎么也刷不过去，因为中间使用了银联服务，另外银联对这个商家开放接口是有限制的，就是同时有多少用户可以结算，那天赶上大促的时候，结算特别多，用户就排队，当时结算效率特别低。通过我们系统监测发现银联提供的接口有一些宕机的情况，一直不稳定，所以导致前面的用户都堆在那里结算，从用户角度来说，一定是怀疑收银系统有问题，实际上真正有问题的并不是他们，他们依赖第三方API服务。另外可能银联提供的服务是单个API，就是一个函数或者方法的调用。但是还有另外一个层面，就是事物留存，比如我去京东购买一个商品，添加购物车，进行支付结算，然后看看物流情况，每个环节都是有一个或者多个API组成的，在API监控可以把多个API串起来，对外看起来就是事物留存。我们的客户就可以知道用户在平台上购物整体来说是什么样的体验，因为我不可能每个用户都会真实的摸排，但是我可以知道这个流程怎么样。其实我们的目的都是为了保证接口和服务，因为接口是支撑业务的，尤其我们迁移到云上以后，基本上都是由服务提供的，所以这个接口服务是非常非常关键的，只不过以前我们把这部分忽略掉了，但是现在很多客户意识非常强，一旦出现问题，他们会把很多的服务监控起来，像我们短信身份验证吗，银行接口，微信，个人支付接口这些都是很重要的。所以这些方面大家可以考虑自己的业务是不是有相关需求，

云服务大家都知道，我们迁上云之后，这些服务也是不容忽略的一部分。从我们应用运维来说，我们希望看到的服务是比较完整的，我们希望除了底层的东西，也希望知道中间件，包括组件有没有新的瓶颈，链接负载是不是超载了，有多少链接数，进出流量多少。我们经常碰到的一个情况是什么，我们定位了很多人，这些开源组件也好，商业组件也好，很多配的不是特别优化。在小规模量上可能没有发现，但是量大以后，那个瓶颈就发现了，所以在这一点上，性能优化也是很重要的，基本跑起来不是太大的问题，但是要把前后整合配置比较优化，包括软硬件、参数调优比较好，还是有一定难度的，是反复调优过程。通过这个平台可以快速直接的方式告诉你。因为我们对业务都有一些监控，我们可以知道哪个地方有瓶颈，哪个地方参数需要进行优化和调整。

在云主机方面，云主机也是消耗资源的，所以这些资源我们也提供了相关监控。其实大家说你有这个监控，其实我们开源也很多，包括监控最早从网管，还有小米开源等等，开源有开源的好处，实际上对于初创企业来说刚开始比较好，但是后面问题就来了，而且开源有一点，监控信息如何进行展示，如何进行可视化，这个可能存在一些问题，因为开源比较基础，展示的信息比较少一些，尤其我们做监控的，如果从平台到中间件，到服务，到上层应用，到业务，如果这些信息综合起来看，这里面可能开源是远远解决不了的问题，这种情况下，通过可是化大屏可以把相关关联信息综合起来进行综合展示，这里面展示的是其中一部分。我们监控出来除了知道还要提前知道，我们告警有分几级告警，我们除了常见的邮件短信，还做了移动端的。另外我们还有URL回调，很多企业有自己的监控平台，我们可以把发现的一些事，尤其是故障和告警信息告诉你，你可以在你的平台统一处理。包括分析报表，不同的用户不同的时段，不同的项目不同的时段，我们都有相关报表，通过报表我们可以知道日、周、月、季度运行的情况。

下面是我们一个真实的客户案例，我们的云平台上面你有云平台以后，平台上跑各个类型应用，就像京东来说，京东有订单，各个品类交易量到底多少，这个客户左上角的图，是业务交易信息的监控，下面绿色是它的一些支撑业务的核心应用系统，包括ERP、CRM系统，上面的业务系统是纯业务订单，下面是CRM、ERP系统是支撑业务层面的，下面才是比较基础的服务，这个客户在云上他自己用公有云平台，当然还有一部分私有云，我们把公有云和私有云信息都接到一个大屏上进行可视化展示。这里面有一些其他的数据库服务，右边是它的线下门店会员系统实时交易情况，这个上面是纯线上的，它的意思是把业务迁到线上了，右上角是线下系统，大家知道最后形成了O2O的系统，而且他真正把线上线下数据打通了，打通的数据就是依赖我们监测的数据。当然我们监测不仅仅是我们刚才监测的主机、资源，实际上还有业务交易，我们通过交易把数据push给我们，我们通过API介进来。另外我们是从日志方面分析出交易信息，右下角是我们日志分析。所以上面是支撑的应用系统，下面是我们关键服务，所以它的用户把整个监控做得非常完美。它还有一点没展示，它背后依赖于这些信息，还做了一些可视化，把应用、资源、用户行为关联起来，我们以前做IT运营的时候，更多是关注基础资源，对业务信息了解很少。但是通过业务监控，不仅仅可以知道关联信息，我们有底层资源，有日志资源，但是这些资源是关联的，我从京东登录有日志，结算有日志，物流有日志等等，这些信息都是登录系统以后产生的，虽然是不同也点产生，但是都是跟我这次交易相关的。通过这个平台我们可以把客户做每次应用的资源都贯穿起来，将来如果业务下降的时候，比如业务订单减少了，可能是中间某个应用运行不正常了，你可以定位到具体是网络问题，还是I/0层面问题，这个平台提供的是一键追踪你的性能根源。

这是我们的数据中心监控，它有传统的物理环境，现在大部分企业迁移到云并不是所有的东西建议到云，尤其是传统的，它是分步走的过程，所以它有传统IDC，也有新的云的资源。还有一点中间还有温湿度，我们本质上不做温湿度监控，但是这个平台它是开放平台，它提供自动监控，像我们机房的温湿度可以通过API的方式接进来，做统一展示。所以除了有你的物理资源监控，还有网络层面，存储层面，流量的监控。还有一些虚拟资源的监控，整个数据中心包括IDC，包括虚拟资源，包括网络，包括安全，其实我们有安全的按钮，安全的客户，把所有资源都整合在一起了。

如果说每一部分出现问题的时候，比如说超过你的设定阈值或者阈值范围，都会及时告警。但是后续肯定是大数据，比如温度多少正常，可能温度每天监测标准都不一样，比如今天30度我才能接受，明天35度才能接受，30度接受不了，这个趋势上我们会做大数据的，我们会根据动态预测进行动态告警。所以整个过程可以实时监控，及时发现问题。这是我们实施的网络质量，网络质量包括网络连通性和性能。以上就是我简单的分享，谢谢大家！

·带中文路由位置信息的在线Traceroute

·网站反应速度测试

·在线简繁体转换

·Alexa世界排名查询

·Visualroute网络路径结点回溯分析工具

·服务器历史状况检测工具Netcraft uptime

·HTML和JS互转

·域名注册查询

·NETMECHANIC.COM测试网页特性

>> 最新资讯

>>更多

新闻搜索

网速测试

世界网络