400-606-2014
400-606-2014

云蛛系统的黑科技-大数据处理工具DataCenter系列的强大之处(二)

2018年9月23日 |

接上回,我们已经知道了一款好用的大数据处理工具对你我意味着什么。可能有人要问,你总说DataCenter的强大,那它强大在哪呢?你说的架构在哪呢?说曹操曹操就到,这就是DataCenter的架构图:

-->

很清爽的感觉,是的,您用起来也会无比的舒适。DataCenter采用模组化的模式进行,也就是您看到的每个模块,都是其中的一个模组,您可以通过配置页面进行自由调配组合,这样您就可以根据您的实际业务进行相关的选择,组合,从而针对您的业务,进行专有的调优。

系统主要分采集、存储、计算、发布、展现五大功能组。我们先从采集说起。

采集:标准数据输入接口提供,方便不同类型的采集工具接入,譬如物联网数据采集接入、游戏log接入、各种日志服务器接入等等。

存储:批处理部分-采集上来的数据主HDFS进行存储,根据数据价值部分存于Hbase

流式实时-采集上来的数据直接接入Kafka集群

计算:这部分也是分批处理和流式实时两部分,采用的技术较多,Hive的MR,Spark,Flink等等,以及新起之秀kylin等等,此处会DataCenter提供您不同的选择,您需要根据您的业务具体选择不同的处理模式,系统会根据规则进行匹配,选择不同的工具进行计算,从而达到最优的性能。

发布:此处也是分批处理和流式实时两部分,批处理以服务的方式对外提供服务,诸如文件下载,Rest服务,消息,当然还有我们熟知的数据库(关系和非关系)。而流式主要以分布式流式查询为主,比如elasticsearch、presto的应用,您可以快捷方便的使用您的实时通道数据了。

展现:这部分是由您所熟知的蛛网组件完成的,您的页面配置操作,展现都由这部分完成,这部分包含了AutoBI,DataView,已经EasyMIS的综合应用。

而贯穿整个系统的,除了元数据系统,还有诸如报警系统、权限系统等等,而这其中最为核心的当属调度系统,没有这个系统,整个DataCenter就无法正常运转。调度系统承上启下,控制各个模块的运行,同时也控制着计算节点的指标计算,比如每个月的日指标不全的话,是不允许计算月指标的,从而将缺数据的预警发出推送给相关人员,调查相关日志缺失问题。可以说调度系统是整个系统的灵魂所在。

综上所述,您可以看到DataCenter是一整套庞大又体系严密的系统,环环相扣,设计非常的严谨,正是因为这些,DataCenter才能处理PB级的数据,并将性能损耗降至最低。可以说DataCenter的出现,必将改变大数据处理的一些规则,如果蛛网时代改变软件开发规则一样,一个崭新的大数据处理时代即将到来,而这一切都是蛛网时代DataCenter为您创造的。

商务咨询

电话:400-606-2014

技术支持

微信:cobwebtimes

电话:400-606-2014

微信

微博