工业物联网需求驱动时序数据库渐成新潮—

工业物联网需求驱动时序数据库渐成新潮

2019-07-22

在很多人的印象中，关系型数据库仍是市场的主流，甲骨文、Teradata、IBM、微软都是这个领域的主要玩家。不过当工业物联网、金融交易、空气预测等数据逐渐成为生产生活常态的时候，由需求推动的时序信息就成了数据库的关注重点。

Gartner的研究显示，2018年全球数据库管理系统（DBMS）的收入增长18.4%，达到460亿美元。云数据库管理系统收入在该18.4%增长中的占比为68%，微软和AWS占到整体市场增长的75.5%。这一趋势表明，云服务提供商（CSP）基础设施和在该基础设施上运行的服务正在成为新的数据管理平台。当云成为决定数据库未来的重要指标，在云上开展的业务自然也影响着数据库的设计。

围绕云服务提供商的生态系统正在形成——该生态系统将各项服务集成到一家云服务提供商并具有云间数据管理的初期环节。而这也与本地部署的方式截然相反。在本地部署方式中，个别产品常常具有多重作用，但很少自带支持与本地部署环境内邻近产品进行集成的能力。尽管本地系统出现了一些增长，但这一增长很少来自于新的本地部署，而是一般来自于价格的增长和为避免风险而强制进行的升级。个性化的部署在特定行业尤为明显。

比如在工业领域，传统制造业把业务迁移到公有云颇有挑战。工业互联网时代产生的数据量比传统的信息化要多数千倍甚至数万倍，并且是实时采集、高频度、高密度的，动态数据模型随时可变，这么大规模且复杂的数据上传到公有云，传统的数据库产品很难跟上节奏。要知道建设类似的数据仓库时，通常要对数百个KPI进行纵向挖掘，追踪生产、研发、制造、工艺、流程等层面的数据源头并对其进行分析。

同样的例子也发生在零售生鲜，如果每个人都开一家零售店，每家店有两个爆款SKU，可能所有店员在补货时靠经验就可以了。但是当SKU变成200个甚至上千个时，恐怕店员大概率就会手忙脚乱了，而且还要考虑物流、天气、用户习惯等各种各样的外部因素，很容易就会因为高库存造成经济损失。这些零售品的特点是颗粒度比较小，如果每个门店有2000多个SKU，背后要围绕每个商品构建相应的很多算法模型，要是用传统方式计算的成本会非常高。

那么有没有一种数据库专门针对这些需求所设计？时序数据库登场了。从概念上讲，时间序列数据就是一串按时间维度索引的数据，这些数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值，之前所说的股票价格、空气指数、工业传感器数据就适用于这个范围。

时序数据的特点是写多读少、高并发写入、无事务要求、海量数据持续写入，可以基于时间区间聚合分析和高效检索。以此为基础，时序数据库可解释为为了处理时间序列数据而优化的软件系统，其按照时间数值或时间范围进行索引。在所有数据库的类别中，时序序列数据库也是过去两年中增长最快的，足以说明此类的用户需求很大。对象主题、所选时间点、测量值是时序数据库的三大组成部分，其特性是背后有成百上千万的终端设备，部署时常用是多机存储，也就是分布式存储。

这种分片式的设计可以对各个区段进行存储和分析，为之后引入人工智能管理数据库埋下了伏笔。目前，市面上开源的时序数据库有不少，包括 InfluxDB、OpenTSDB、Prometheus、Graphite等等，所使用的开发语言不同。例如OpenTSDB基于HBase存储时序数据，后者在存储时在有效性、冗余、压缩率方面均有不同程度的缺陷。

因此，在选择时序数据库时要关注的地方包括写入速度、查询速度、数据完整性、磁盘占用率等因素，因为在物联网的场景中，首先用内存写缓存时对归档速度有着较高的要求，其次实时产生的数据在使用开源语言便写时，可能会发生数据库异常的情况，数据丢失了怎么办？再有，如果连接的测试终端较多，测试点会是成倍增长的，如果对设置的每个时间点都进行分析，那么数据量是难以估量的，所以压缩能力是企业客户看重的。

当然，也不是所有场景都能用时序数据库解决，而且要对数据进行有效筛选，摘取那些影响决策的信息。而且在未来，像RDDTool、Graphite这样的数据可以智能的选择存留或删除特定数据，这更是传统关系型数据库难以做到的。

【凡本网注明来源非中国IDC圈的作品，均转载自其它媒体，目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。】

世界网络

延伸阅读：