首页 -> 新闻中心 -> 云计算 -> 正文
IDCC2018|有孚网络臧云峰:百花齐放的“云”,该怎么运维?
2018-12-14

中国IDC圈讯 12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典(简称“IDCC2018”)在北京国家会议中心隆重召开。

13日上午,IDCC2018分论坛智能运维安全论坛正式召开!本次论坛由威客安全和中国IDC圈承办,汇聚了来自来自运营商、互联网、数据中心、云计算等多领域多行业的企业高管、嘉宾、媒体等。与会嘉宾们在大典现场,共话数字经济时代,聚焦数据安全问题,探讨智能化与可视化运维的新方向与新趋势。

会上,有孚网络CTO臧云峰先生,为大家带来基于混合云的自动化运维实践》的主题演讲。以下为演讲实录(未经本人核实):

大家上午好,我是上海有孚网络股份有限公司的CTO臧云峰,我今天给大家带来的题目是基于混合云的自动化运维实践。根据Gartner的说法,多云更侧重在多个公有云之间,而且强调的是如何去使用多个公有云之间的资源。混合云更侧重在云内部的运营和管理维护,我今天就把这个题目定成混合云的自动化运维实践。分三个部分来说,第一是自动化运维的概念和思路想法,第二是案例分享,第三是谈谈我们对自动化运维平台的认知。

这张图是2018年发布的,可以清楚的看到现在的云绝对是百花齐放的时代,而不是说某一个云可以一家独大。平均的中位数大概是4个云左右,平均值是4.8个云,说明我们一家企业平均来说大概会有4到5个云左右的情况。但是在2018年,这个比例大概是一朵最主要的云,占据了75%所有的负载。往前三到五年会发生转变,大概会有50%的放在最核心的云上,剩下三到四朵云会分享剩下的50%。这是我们IT变化带给企业的多云战略,除此之外还有一系列的挑战,包括快速适应业务变化,有96%的应用需求需要在进行快速的演进。

第二张图是从2016年到2020年数据中心的负载会上升到2.6倍,还有就是新决策者的介入,也可以把这个权力交给新的业务人员,我们的运维人员也可以成为新的决策者,我们需要提升自己的业务能力和IT综合管理能力,成为在业务人员考量基础上的IT基础服务。

这张图是Gartner今年最新的报告,自动化运维按时间纵向划分的三个阶段,大部分企业还处于第一阶段,为了降低成本,提高效率,使IT运维更多的是运营。第二阶段侧重速度,怎么通过快速的交付满足业务的需求,同时还会有一些成本和效益的反馈。第三阶段更多的是客户导向的敏捷需求,怎样助力业务更好的满足客户的需求。

刚才是纵向划分,现在是横向的,应用分成三大类,最底下是核心应用,以大数据存储为基础的,最上面的是新近开发的,包括运维自动化,跟我们内部的研发团队需要紧密的合作。大部分的企业目前的阶段就是创新快速上线,我们不仅有很强的研发能力,还需要有快速创新的能力。针对三个类型的应用分别有三种不同的解决方案,一个是传统的手工运维,这个不多说了。还有就是自动化运维,我们希望能够服务于目前传统企业向新型企业转型过程中所需要的运维能力。

这是另外一张Gartner今年的报告,是自动化运维技术成熟度的曲线,大家可以看到大部分的自动化运维的技术还是处在第一阶段和第二阶段当中,我们现在有这样的新技术可以来尝试,但是距离它的成熟还比较远,现在比较成熟的是流程自动化管理。另外是自动化配制,包括通过一些业务交付,订单怎么转化成一些要件。在这个基础上,我们还可以做一些比如AIOP,也是可以逐渐做起来。

这边再给大家两个公式,关于自动化运维的考核,刚才说到IT人员必须以业务视角来看待整个IT的管理和运维,尤其是治理,这是两张比较重要的比例,一个是自动化的增效比,单次手工执行耗时和单次自动化执行耗时,按照目前的经验来看,大概在5到20倍之间,不是5%到50%,而是5到20倍之间,这给整个IT运维带来的价值是非常大的。第二个是给大家看一个自动化的节费比,如何节省费用,节省人力,是单次手工工时乘以年次书,乘以工时费用,再除以开发自动化运维工具之费用,每年都会使效率增加,我们开发工具是一次性投入。我们给客户做自动化运维的方案,最后有一个对比表,实际上就是这个,可以告诉你现在一次性投入可能上百万,但是会发现上百万不出一年,最多两年就能够回来,就把我们自动化运维有一个非常量化的衡量。

这边是把自动化运维的工具做了一个长尾的梳理,我们分成了三个部分,蓝色是头部,橙色是头部的扩展,绿色部分是长尾。可以看到头部的工具是一个比较典型的需求,边界比较清楚,各个不同的用户之间,重叠度非常高,我们也有最佳实践可以参照,这是我们优先要做的一部分。第二是做头部拓展,不像第一部分那么的一致,需要做一部分的定制化开发,需要顶层设计,在这个程度上我们做完第一阶段,进入第二阶段的时候,最好能够给我们的企业把我们的自动化运维平台框架制订下来,不断的开发迭代不会造成工作的浪费。第三块是长尾工具,我们强烈希望企业内置一部分的运维人员能够自主开发,个性化程度会非常高,本身花的时间比较短,需要的技能也没有那么强,可以放到第三部分做。第四象限是通过第二和第三象限拓展达到的,最终不可避免需要人工去处理,即便是这种情况,我们已经把自动化运维工具助力原有手工运维的流程,已经做得非常好了。

第二部分给大家分享一下我们的自动化运维的一些实践案例。第一个是统一监控,这是我们头部工具的案例,这是我们自己做的,已经做成产品化的东西了,外面也有不少公司做成SaaS。这个工具主要是做什么用的?第一是做多点,外面设了大概五个点,两个点以上发生故障,进行报警,就认为这是真正发生的报警,如果是单个点,或者没有报警发生,我们就认为这是误报。这样一个机制就集成了原有的传统的监控工具,包括sensu,smartcheck,还有zabbix,nagios,我们可以做统一的管理,邮件通知,短信通知,微信通知,甚至可以把实际已经确认发生的故障直接跟我们的系统对接起来,工单直接发出去,这是一个完整的,我们可以做统一监控的头部应用。

再介绍一下头部扩展的案例,这是我们自己做的一个相当于编排,云上编排的工具,通过这个工具大家可以把网络的软件单元,都可以有效的捆绑在一起,每个机器到底是单挂还是双挂,前端是不是有防火墙,都可以在这张图上做完。好处是什么?在这里形成一张蓝图,只要同意,审批通过,就可以实施,在云上直接进行部署。有了这张图以后,我们把原有企业需要做的整个流程,从业务单元发起申请到资源服务的配制,再到主管部门的审批,整个流程对接掉。原来为什么业务申请到自主开通是不可实现的?这是比较长的过程,不得已需要有一个人去转换,现在自动化以后,所见即所得。自动开通了以后,我们通过配制订单列表直接下去。第三,我们这个系统可以有变更的跟踪,可以做比较好的内幕计算。

我们跟Hyper-V进行了对接,跟公有云场景也进行了对接,通过这样的一个头部扩展方式,我们发现不是每一个企业内部能够用到的流程都能够在其他企业内部被复制,这种情况下,我们发现大的流程模块单元是可以被用的,但是内部还要定制化一些特殊的环节。

还有是长尾的工具,这是企业内部可以自主研发的,我们这个背景,因为我们是做数据中心的,在我们的入口时不时会遭到攻击,如果安排人员值班,15到20分钟会完成响应过程,说慢也不慢,但是对我们的用户来说是远远不久的,15到20分钟会给我们客户带来非常大的冲击和影响。我们把这个做出来了,使系统能够自主的识别流量攻击,并且把受攻击的IP放到黑名单里面封闭掉,现在在1分钟之内,就是从发现攻击到进黑名单用1分钟,其实可以做得更快,但是因为怕误杀。

这是另外一个,我们做了手机要程序,后端也是做自动化运维,跟我们固定资产盘点可以很好的结合。现在每年一次的固定资产的盘点挺花人力的,我们每个设备都有小型的二维码,用手机一扫就可以非常清楚了,企业也是可以根据自己的要求进行开发的。

第三部分,我们对自动化运维平台的认知。从大的方向来说,自动化运维大概会分三个阶段,第一阶段是ITOM,运维管理,是被动响应,有故障我们去响应,不对任何的服务做承诺,尽可能的把它做完。第二阶段是ITSM,我们有服务的概念了,是IT角度的服务。第三阶段是ITOA,IT的运营分析,从运维转向运营,业务人员的思路去思考运维的问题。IT数据都在运维人员手里,我们可以通过数据更好的助力业务的发展。

我们认为有这样几个核心的要素,第一个是需要有大规模的运维实证,来证明这个平台是可靠的,是足够强壮的。第二是开放平台,不希望被某一家具体的供应商所绑定,具有开放性,最好是开源。第三是支持生态和运营,生态化的运营会是非常好的助力。第四是大数据接入平台,刚才说的大数据运维,这是一个基础,虽然可能在五年之后才会真正的发挥作用,但是大数据的积累从今天开始就可以做了。第五是数据可视化展现,数据量大了以后非常难处理,非常难观察,所以有一定的比较形象的数据展现功能会更好。第六是可定制化的流程,根据需求进行一定的定制。

这是我们使用的一个平台,有孚蓝鲸,在全球大概有几十个站点的范围内,总共有20万台机器,这是我们实际在做的一件事情。另外,它除了底层的管控平台之外,其他的东西基本上是开源的结构,可以帮助大家能够更好的了解它的的代码和公司业务进行结合。

这是数据接入量,每秒钟有1000万条接入,每天有50亿条的数据流入,差错率是百万分之一。

这是这个平台大概的框架,我今天不仔细介绍了,就讲核心的部分。首先是管控平台,无论是公有云,私有云,都可以支持。上面有一些传统的平台,像作业,配制,数据平台,明年年初会开放容器平台,AI应该是在后年开放。所有我们需要扩展的,比如网络的扩展,都可以通过这里累计进去。还可以通过拖拉的方式,使整个前端的构建非常的简单。最上面看到的是软件的SaaS,通过这个SaaS可以自主开发,也可以利用第三方的插件,运营完全是基于容器化的。

这是大数据,从获取数据到分析,到配制,到存储,到数据校验,能够一体化的进行管控。

这是一个流程引擎,流程自主化的设定,从开始一直到其中的某一个单元,进行数据分析,点开之后可以做代码的编辑,做可视化的拖拽和流程的重新编辑。

这是内置的一些功能,包括热力图,流量分析等等,都可以比较好的展现出来。

最后总结一下,这是基于混合云模式如何做自动化运维,以及自动化运维需要做的一些事情,谢谢!

新闻搜索

覆盖全国各省会城市及海外城市的网速测试
→选择要测试的地区
→选择目标测试点