主页 > 新体验 > 设计沙龙 > 技术调研
  • 数据中台:数据中台技术架构和大数据技术方案(上篇)

    adinnet/2020-02-25 11:59/技术调研

       自2018年起,业界被“各种中台”狂轰乱炸,技术中台、业务中台、AI中台等等雨后春笋般纷纷涌现。本文以数据中台为核心,综述了数据中台通用技术架构。分别对大数据技术平台、数据资产管理平台、数据分析挖掘平台和统一服务总线的核心技术和功能进行了展开讨论。

    一、数据中台技术架构

    1. 数据中台总体架构

       数据中台可定义为一个集数据采集、融合、治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台。从业内较为通用的架构来看,数据中台一般可分为四层:大数据技术平台、数据资产管理平台、数据分析挖掘平台、面向应用的主题式数据开放服务平台,总体架构图如下图所示。本章节针对数据中台每个层次单独进行阐述。

    数据中台总体架构图.jpg

    图:数据中台总体架构图

    艾艺认为数据中台其整体架构可以分为四层:

       (1)大数据技术平台,为数据资产管理平台提供技术支撑,基于hadoop生态体系构建,包含多个数据存储、计算框架,解决多源异构的海量数据采集、存储、计算等问题。

       (2)数据资产管理平台,基于大数据技术平台之上的数据管理中间件,用于盘点数据家底、构建统一的数据标准体系、构建行业化主题式数据仓库,以实现数据资产化为主要目的。数据资产管理平台通过数据开发引擎与底层大数据技术平台进行数据交互。

       (3)数据分析挖掘平台,架构在数据资产管理平台之上,为数据科学家、数据分析师提供稳定、高质量的跨主题数据资源。同时支持自然语言处理、机器学习建模平台、智能标签+动态知识图谱等多个易用的数据挖掘工具集。

       (4)统一数据服务总线,提供统一的、面向应用的、主题式的数据服务,将数据资产管理平台、数据分析挖掘平台的数据处理和分析结果以数据服务形式对外提供,同时生成以业务为导向的服务资源目录,让前台应用更清晰的使用数据中台里的各类数据,实现以数据驱动业务,促进前台业务。

    2. 大数据技术平台

       大数据技术平台为数据中台提供技术支撑,包括数据采集、数据存储、数据处理、数据分析等计算组件。一般基于开源Hadoop生态体系构建,数据中台使用的大数据技术架构不应该限定为单一架构,而是复杂多样的,要求上层资产管理平台具有较高的兼容性,能适配国际、国内多种主流大数据技术平台。

    数据中台建设解决方案找艾艺.png

    (1)多源异构数据采集与存储技术

       数据中台面向的业务较为复杂,涉及的数据种类繁多、容量巨大,常规技术无法满足如此复杂的海量数据进行采集、处理与分析,所以需要研究不同行业多源异构数据的特征,定义数据采集标准、技术方式,并将之产品化,用简单配置的方式实现多源异构数据自动接入到数据中台。同时,需要构建一套通用的、基于本体论的数据语义描述模型,包括:模型中的基本元素、基本类型、基本关系、基本函数和用于推理的逻辑内核,用于存储和表达异构数据,让数据更容易被使用。

    (2)基于统一模型和pipeline的数据融合引擎

       数据融合引擎的底层技术一般基于Spark RDD的全内存并行计算,支持跨源数据融合分析处理。上层提供简洁易用的交互界面,通过简单的拖拽配置就可以完成多源数据的输入、处理、融合和输出操作。该引擎需支持多数据源、跨数据源的数据接入与融合,数据源一键式配置,数据全自动化拉取,并且支持毫秒级预览查看,适用于数据探索与挖掘分析场景。数据融合引擎基于Pipeline式数据流的方式将ETL流程拆分成多个中间节点,每一个节点完成一项数据处理工作,并且是交互式响应操作,用户在使用过程中只关心一进一出,使用简单、无需技术功底,执行流程通过简单的连线做到了充分的自定义,并且提供多种执行计划,可以对数据进行各种实验,更富有探索性。

    (3)与底层解耦的异构任务执行引擎

       对数据中台来说,异构任务执行引擎可以起到承上启下的作用,它连接底层大数据技术平台与数据资产管理平台,负责数据计算任务提交、分发与管理,同时也是维护大数据技术平台稳定运行的关键服务。任务执行根据大数据平台集群状况决定计算任务是提交或是在队列中等待,在集群任务负载较高的情况下,保障高优先级的任务优先被执行。同时,任务执行引擎支持多种异构任务,如MapReduce、Spark、R、Python等,以适应不同技术团队的数据开发需求。

    (4)基于多租户的异构工作流调度引擎

       数据中台管理整个企业或机构的全域数据和业务流程,从工作流调度的角度来讲,单个业务流程是一个向无环图DAG(directed acyclic graph),这些业务流程往往由不同的业务部门(租户)负责,每个业务部门的业务流程都有自己的优先级配置,所以多租户模式下的多DAG调度技术在多工种协同场景下显得尤为重要。多个租户存在资源共享的情况下,异构工作流调度引擎需要兼顾不同租户之间及租户内部的多个DAG之间调度的公平性,通过异构任务执行引擎提交和获取任务执行状态,以最大限度地提升技术平台资源利用率为主要目标。

    点击>>免费咨询数据中台建设方案

    详情请查看>>数据中台:数据中台技术架构和大数据技术方案(下篇)

上一篇:开发一款远程办公小程序需具备什么功能?要多少钱?下一篇:APP开发:开发一款优秀的APP需具备的3大标准
400-021-8655
在线咨询
在线留言