首页 -> 新闻中心 -> 云计算 -> 正文
平安云 丘子隽:平安科技在金融领域开展的开源实践
2017-04-26

W020170420612746931656

丘子隽:大家看一下这是去年我们一个公众号,就说平安开发到第1001个APP的时候平安人内心是崩溃的,也就是在好几年之前你有那么多APP要上线,你作为一个基础架构的维护人员,你有什么办法支持?因为平安并不是一个互联网公司,不像腾讯阿里底层的基础架构早就云化了,传统的金融都是要求物理隔离,你如果一千多个APP每个都做物理隔离,那你好几年也弄不完,所以你在这个背景下,当时你就需要一个类似云计算的东西来支持那么多APP,所以实际上平安云就是在这个背景下组建成立的。

经过这几年的发展,我们可以总结一下我们取得的成绩,大概可以用十个字形容,第一个是专业,如果不专业我们分会场就跟其他的合并了,之所以要金融的分会场肯定金融的业务跟其他的不同,有它自己的诉求,所以专业,我们的专业体现在什么地方?我们体现怎么样支持金融业务的创新上,因为传统的金融业务都要接受监管,监管的要求也很严格,也就是其他公司不能称为金融的原因,当你做APP的时候,这个APP的主人也会问你个这运营还能不能符合监管的要求,这就给你带来一个新的命题了,你说可以吗?还是说不可以?还是说你怎么做?他我们的经验改变通过专业性去支持业务的创新,同时保持它是安全和合规的,也就是说我们对怎么样组合合规和安全上做了对云的补充,所以我们现在包括深圳市政府包括保监会也都在要求我们制定保险类的业务上云的规范。

第四个是可靠,刚才大家也都介绍了,目标都是一样的,为了让你的业务系统更加的可靠,做法也基本是类似的,我就不多说了,最后一个是增值,我自己做云,我进平安云接近三年了,我最大的感受有两件事,一个是运维,另外一个是运营,运维是为了让大家满怀激情去做云计算的开发的时候依然有时间能够好好的休息,让你有一个很好的身体再投入明天的开发,所以一个健康的运维体系非常重要,另外一个就是运营,你做云计算得组建一个云计算的团队,还得买一堆的设备支持你做相应的开发,那你能不能赚回来钱是老板对你做这个事情评估的唯一标准,所以让我们的业务说这个云很好,我们上来之后不但是省了钱,还更多的赚到了钱,这个云的价值就出来了,所以我们现在云从门户的层面来说,它还有SaaS、PaaS,我们有人脸识别和大数据都会放到增值服务历来。介绍完几个以后后面就是介绍技术服务,这个架构图看起来不是那么性感,因为这个图是我们自己手工设计的,很奇怪,因为大家都讲了Open Stack或者其他的解决方案,我们的解决方案是加了CloudBoot,Cloudstack,你去问问腾讯阿里有没有用Open Stack?绝对没有,他们当时做云的时候没有,他们只能用的是安数那套系统,在安数上投入了大量的人力去做深度的二次开发并且优化,现在形成自己的系统,像阿里给自己的系统取一个非常好的名字叫飞天,同样我们13年启动的时候也做云平台的调研,经过一番的评估以后只有CloudStack是最能符合上线运营的,很多神奇的事情偶然之间有发生了我现在回过头它也有自己的好处,很多人都玩过Open Stack,里面有一个很深的垢病,就是执行的规模,在几周之前季总给我打电话,我们沟通我们用Open Stack集群规模有问题,做到两百就感觉上不去了,我跟很多华为的专家都沟通过这个问题,因为Open Stack它的设计非常巧妙,同样它也有一些它的弊端,它的消息队列的问题还有数据库的机制都是制约它的规模的瓶颈,当然也不是不能解决,可能要投入很多的深度的二次开发才能解决这个问题,那CloudStack支持至少五百个节点,所以它也有它的好处,至于开源用哪一个,其实用哪一个都不是特别的轻松,因为没有哪一个开源拿过来肯定就能用,肯定还有一个磨合期,结果来看我们把这个用好了,支持了我们业务的发展,所以我们认为它是成功的,所以我们也积累了很多的经验,我也接触过很多金融领域想做云的,找我们聊,我们还有一个公众号,说你们做的风声水起,怎么做的,我说这也是一个偶然,我们刚刚起步的时候,是一个非常小的,所以我们有很多的空间去做创新,同时我们也有很多的理由去坚持我们的自主可控,自主可控实际上是个笨办法,就是你要自己干很多的脏活,短期内不一定把东西做起来,同时也会让你成长为什么?因为现在很多的笨办法被冠以非常牛逼的词就是匠心,你这个人只做一个手艺活很长时间就有匠心,你遇到横爬出来就有经验,用笨办法支持业务系统上云也会遇到很多的坑,会让你心态变得更加的踏实,所以我们这个架构能不能复制,可以,但是就看你们是不是值得投入精力,我们通过网络直接是连了我们传统的基础架构,所以金融领域里怎么让创新成功我们也是相当有经验的,双模就是经验之一。上面有一个专门智能运维的平台,之前也讲了相关的东西,刚才潘总也介绍了运维的东西,我经过大量的做技术的沟通以后,我发现运营商的系统就是这么划分的,运营商的系统像华为的同事肯定特别熟悉,一个叫OSS,一个叫BSS,BSS就是做业务的,其实一个门户就相当于BSS,是给用户提供一个界面让他去收钱,OSS是做运维的,相当于我们智能运维平台,专门去让运维的同学能够更加的高效,我们怎么做的?实际上和其他同学也差不多,只是我们可能后面会介绍到我们用的工具跟其他人不一样,总体上来说一个是信息的采集和收集,采集回来的信息你用一些方法去处理,处理完成以后你就会得出一些满足你的告警的策略,要不要给你打电话发短信告诉你,最后一个就是最牛逼的,你根据以往的策略你会形成大量人工处理操作的一些脚本,被检验正常就会交给智能运维平台自动的处理。

这个图是CloudStack官方资料里有的,里面的结构大概是这样的,跟CloudStack不太一样,但是我觉得殊途同归,该有的功能基本也有。我们的存储实际上用了不少的存储服务,因为传统系统的原因你没有办法,对于我们有IT历史包袱的公司要做完全的开源还是要把握节奏的,我们的节奏是又有商用的还有开源的,还有本地的,各种的服务都有,方便你不同类型的应用去选择不同的存储服务。这是我们的网络的开源,就是NSP,我们网络有的叫网络服务编排的叫NSP,它做的事情主要有四个,第一个就是把网络的服务分层,我们分成基础网络服务,就是虚拟网络的二层和三层,给租户一个虚拟的交换机和路由器,上面有一些子网,第二个是高级网络服务,给他虚拟的防火墙和虚拟的负载均衡,这里面有硬件形态的也有软件形态的,软件形态有商业的,也有自己开发的NIV的软件,我们现在认为NIV取一个新的名字叫NFC,是容器,就是自研的NF的东西都已经运行在线上了,我们不满足于在虚拟化上做网络的服务,因为用容器的经过我们的对比它的性能要比虚拟化的至少提升20%,所以能够节约成本,这是高级网络服务。最后一个是增值网络服务,就是包括CBN,流量清洗,互联网域名的备案和调度,我们为什么这样划分?因为我们觉得做网络自动化并不是简单的把你人工操作的网络脚本让机器执行,因为那个只是让机器模仿人,并不是一个很好的,你要把你做的事情进行建模,所以我们建模过程把所有的网络要的服务根据我刚才划分的层次,因为他在不同的设备上实现,我们按照传统网络在不同的设备上我们进行分类,这样抽象出来的是最好的,兼容性就不用我多说了,刚才很多人都已经介绍了,基本可以对接现在市面上所有的网络设备,所以我们做的事情就是快速的把它落地,并且有一年多的检验的时间,而且支持多地的部署,这些机器方案的东西我们已经搞定了,所以在经验上我们已经也跟华为这样的专业地网络公司沟通,他们往往都很羡慕我这个团队取得的成绩。

这些运维的系统,大家可以看到最右面就是我们所使用开源的东西,我们的运维基本上是纯开源,连跳板机都使用的开源解决方案,我们中间核心框架,我们把这套运维系统叫做阿尔法ops,我们也有自己的logo。很多人因为上手的速度我们也检验过,确实非常快,这是我们选择开源的重要依据。同时我们也对接了传统的CMDB这样的系统,也是通过阿尔法ops对接,双模式的人对接就可以看到我们传统的信息,这里面也看到了有很多都是CICD相关的东西,所以我们阿尔法ops也用到了这个,同时也有一个挺漂亮的,这个系统是我们非常非常重要的系统,所以我们也在上面投入了非常多的人力,大家也可以关注我们的公众号和相关的文章进行交流。我们数据库用了很多的开源,我们这里面就讲一个例子,因为我们其他还有很多,也有很多的案例,我们第一年做到了全国规模最大的用户,我们一年多上了一千多个,而且我们完成了一个两百T的数据库迁移的案例,所以我们在postgre上取得的经验应该是非常领先的,所以大家可以看到,我们在postgre使用上也不错,同城有一个灾备,异地也有一个灾备,这是我们数据库服务的缩影,当然我们还有其他的很多的服务,大家可以关注我们的公众号来了解,广告没有那么多,主要都是技术上的,之前很多人都加过这个公众号,从来没有人骂过我说我做广告,谢谢大家。

新闻搜索

覆盖全国各省会城市及海外城市的网速测试
→选择要测试的地区
→选择目标测试点