首页 -> 新闻中心 -> 云计算 -> 正文
广发银行高级技术经理 彭华盛:广发银行运维一体化之平台一体化
2017-04-25

W020170419570468266282

大家好!前面几个大佬都以产品角度来讲运维,我今天以干货的方式跟大家分享一下我们在运维方面的经验。首先做一个自我介绍,我是广发银行运营中心的彭华盛,我现在主要是交易渠道的负责,另外我也负责策划。我今天给大家带来一个议题是平台一体化。标题里面有两大块,前面是标题一体化,后面是平台一体化,我们的运维一体化是区域中心的运维里面的运营体系,运维一体化主要分三块,一个是人员组织的一体化,流程一体化,后面是平台一体化,平台一体化偏向于工具一体化,我今天给大家分享的是平台一体化。

平台一体化里面可以会用三个方面跟大家分享,第一个是团队转型的需求,另外一个我们团队在做转型的时候的解决思路,第三个是我们在转型的一些方案里面的原则。我们重点会来讲原则。

我们转型的压力其实和大家在座的一些运维团队碰到的比较像,我们现在团队里面的运维打一个标签“救火”我们都会有,所以我们归纳一下运维里面目前的四个特点,一个是被动救火式的,我们的团队里面大部分都是被动的保障业务系统,所以我们日常的工作会被搁置。我们也是一个以问题驱动的方式去做运维的,因为我们的运维口,我们往往可能对一些应用的可用性、可靠性和其他的生产问题来驱动。第三个,我们的日常运维主要还是以运维操作性的方式占主要的工作量。第四个,我们是以经验式的运维,尤其是有一些比较资深的老员工,他离职在短期内给我们的运维带来一定的冲击。针对这四个特点我们提出了四个转型:一个是我们从被动的救火式的运维方式向主动的机器化运维的方式。第二个是从问题驱动向价值驱动,价值驱动我们现在也在做大数据,做一些业务方面的驱动。第三个是操作运维,我们现在也在建一个自主化的开发平台,通过这个开发平台快速落地一些工具,来降低我们的操作系统的运维。第四个是我们希望靠人的经验式的运维向智能化运维去驱动。

但是大家也知道我们团队人员很难去扩张,所以我们首先要解决我们的生产力,解决完以后我们才能去做我们的转型,所以解决生产力最主要的手段是自动化。在自动化方面,我们也碰到三个问题,一个是说怎么更好,我们的运维体系也算是比较完整了,但是我们的工具往往是以商业工具,每个商业工具的功能都可能重叠度很多,这里面也是以烟囱式的建设,很难实现信息的共享,更不要说是一加一大于二,有很多时候一加一小于一的可能性都有。

第二个是如何更快,我们的工具也是拿来主义比较多,自主研发比较少。像我们这种传统的银行金融企业,我们要一个产品需要要走一些流程,把流程走完以后一年半载以后了,等我们拿到手以后可能不是最紧迫的运维工具。

第三个我们如何做得更重要,原来我一开始认为我们银行是体制内的,后来慢慢发现我们团队很有危机感,现在我们也在做一些团队的合并,所以我们的压力是比较大的。所以我们在想我们怎么解决我们的职业危机的同时又创造更大的价值。我们就提出了我们接下来要做一个一体化,我们为什么要提一体化?是因为我们希望我们的团队,因为我们有比较多的专业团队,包括我们运动的,包括基础设施的,网络的,各个团队大家是能够达成共识,我们通过提出一个概念,把这个概念固化下来,所以我们提出了一体化。一体化的规划我当时也是有几个触动,里面提到组织、流程、架构三位一体,这个和我们的区域中心的运维一体化的体系是比较吻合的。另外是刚才党总提到的蓝鲸,还有包括云途腾科技产品平台的一体化,给我们很大的指导。我概括讲我们的一体化平台有点像山寨版的蓝鲸,但是这个山寨版更符合我们广发的特点。第三个Google SRE对我们影响很大,我们怎么做运维开发,怎么让我们的运维有更高逼格,这是我们在我们的运维建设过程当中的指导原则。

我们的运维一体化,这是我们的架构,这个架构有几个一体化,这边是我们原先组织的一体化,这下面是我们的工具一体化,整个加起来是运维一体化,流程里面也是一体化,我们的一体化运维平台也是工具的一体化,我们整个体系都是以这个思路来建设的。在我们的平台一体化里面,这张图我是引用了李总的一个概念,我把它做了一个修改,我们的一体化里面,我们从下面看,下面是6个平台+1个门户,我把这个理念已经传播到我们数据中心的平台工具的团队里面,基本上我们现在能够把利益合在一起建设,避免重复的建设。一个从底层的云平台,像我们身上的骨一样,中间是监管,我们的云平台是我们的管,流程平台,操作平台,再往上分析平台,有别于业务大数据,我们和他们是平行的,业务大数据的精力有限,主要是做业务,我们的分析平台主要是做运维分析。我们整体两边还要建四个原则,一个是说我们要自主化,我们要做一个运维开发平台,我们要做工具化,我们要提倡工具的文化,另外一套服务集成,采用一个总线固定在里面,实现工具之间的互联互通,再往上就是可视化。

这是我们前面那张图的细化,这个就不多介绍了,后面大家有兴趣有可以看一看。我现在主要讲一下平台里的主要原则,一个是自主化,就像蓝鲸也有一个研发平台,但是它的开发平台,我感觉我们人的能力用他们的平台还是有限的,因为他要求你有比较强的开发经验,要打包再上传上去。我们也去调研了一下开发中心那边的常规软件公司,现在很多公司有很多人不写代码,就在一个ID上面拖拉拽,我们也基于拖拉拽缩所见即所得的平台,我们的团队中有工具建设的工具化,还有一个服务化,我们已经建了一段时间很难把这个工具废弃掉,我们要整合现有的工具,来引入新的工具,实现信息的互联互通,这是我们服务化的一块。在可视化方面我们也做很多投入,包括如何设计得好看,整体怎么更好地整合,所以我们也花了比较多的心思。后面的原则我会放我们现在做的情况的一些图,也是为了表达一些诚意。我们有自主化的开发平台,这是我们的脚本平台,类似于这是一个脚本工厂,脚本可以再利用,我们现在也在用。我们的管理人员是可以在这个工具上直接去做一些开发,上面这些是可以做测试的,可以做工程的脚本工具。管理员是不需要去考虑我在哪里去测试,什么测试服务器去测试,通过什么去调用,这是我们以前很多开发人员在开发的时候遇到的难点,太困难了就不愿意开发了,我们希望让这种难度尽量降低。

我们那边还有连脚本不愿意写的那种,我们就想了一个办法,像这些脚本就是一个原子,我们可以把它拖拉拽动拉在一起,这三个我们已经上线了。这是可视化的拖拉拽,一个是梳理流,还有一个页面的可视化拖拉拽的触面,还有一个界面流。这个是可视化前端的页面H5,因为我们是基于H5的方案去做的,我们现在在上面做的东西可以在页面里面去展示。

在下面是业务流,你可能有一个工具,有一个按钮,后期是怎么调用的,黄色是调用服务接口的,这边可以写一些代码或者调一些脚本,可视化可以调脚本,也可以调监控上面的数据,也可以直接连我在远端的数据库,这是我们的开发平台。

另外一个,我们希望我们的架构是自主的,我们的运维也是在我们广发行第一次用到了分布式的系统,我们的业务系统比较谨慎,我们的运维里面,一方面我们有这种需求,我们原来监控是以每一个应用+一个数据库,但是我们发现我们的监控数据,当我们的OS大概到3000,我一个表很难保存一个月,我们需要这么多,所以我们又搭了一套类似于东西数据库,这个数据库是用的阿里的软件,下面是17个数据库,实现了分离,现在跑还是整体性能还不错。

后面我们这套架构也是推动到我们的mycall流通平台在用这个架构。这是我们现在在工具层面的技术站。

还有我们在建设工具化的过程当中,我们把工具分为两大块,一块是重型工具,一块是轻型工具,重型工具包括自动化部署、日志系统,我们往往是以成熟产品为主。但是还有很多工具,应用数据维护,包括脚本,包括运营活动的时候要快速给业务报表展示,我们是走的综合人员能力投入产出比的因素,我们是逐步去做自主开发,后面会有一个例子给大家看一看。

我们的重型工具是集中监控,我们的集中监控基本上覆盖了总行从基础设施到系统网络再到应用可用性安全,还有分行的情况我们都已经覆盖到了。中间的工具我们也是比较多,我没有让一个工具实现所有的功能,我们只是说让这些工具把他的事件能够往上抛,跑到我们的平台上让它整合,再到上的平台能力,再往上是智能学习的监控。我们的监控主要原则也是不漏报、不误报的要求。我举个例子,这是我们的集中监控的例子,我们可以把多个系统做整合,这是多种形式的展示,这是Web端,这是大屏,现在整大片有三个左右,我们的双11运维活动都用这个。这是我们把指标做一个平台,比如像双11的时候,我们的电子支付模块有30台服务器,我们可以放在上面,能告诉他到底是哪一台出问题了,当出问题的时候,我们把这一台停掉或者应用方案。这个方案我们在很多活动推广的时候,这个产品经常在用。我们也把监控下放到网点,原来监控在总行的服务器,我们在分行里面把分行的终端也都收上来。包括我们也把一些监控数据上收,借鉴360安全评分系统。这是分行数据收集的利用,这是我们对CMDB的扩展,我们把它扩展到应用题,我们把应用的关系图也拖到里面。这是事件丰富,比如这个告诉我银联要交易超过多少笔,我们就把CMDB的数据评价,这是波动情况,这是CPU内存,包括最近半小时的事件,我们都整合在事件丰富里面,这样我们的管理员在处理故障的时候可以更高效。

工具化,轻量型的工具,我们借鉴工厂,我们鼓励大家用这个工具,每个人做一个工具发布在这里,大家可以能去看。小工具,我举一个例子,我们三把斧头当中的服务启停,我们这些同学去做也做得很好,现在做的版本1,实现批量或者单个做启停,启停当中模拟的CMDB的界面,或者是保留现场,都保留在这里面。我们还支持一些日志、数据库进程的检查,其实把我们比较好的同事应急的处理方法整合在一个界面里。这种是属于我们认为是小型的工具,这个是我们的服务化的思路,我们下面每一个工具都要向上抛接口,通过一个服务器层,你在界面可以看到我这个接口上面的一些测试,我在开发过程当中也可以通过这个接口去选。

这是可视化,我们也会分专业视图、管理视图、业务视图,这些都是我们做出来的界面,这是大屏,这是一个实时动态的图。这个是我们的产品的,这两个是我们做的。这个是我们统一的门户,我们统一的门户把所有工具放在这里面,我们让我们的控制台把待办法放在这里面。有些比较经常用的像监控就嵌入里面,像比较小的工具,我们就用链接的方式。

未来我们一方面是做好自动化,来解决我们的一些痛点。还有我们要结合大数据去放眼智能。我本来改了一稿,里面还有一些东西,这不是最新的一稿。谢谢大家!

新闻搜索

覆盖全国各省会城市及海外城市的网速测试
→选择要测试的地区
→选择目标测试点