您当前位置: 首页 数字化专栏 案例分享 数据治理|数字化转型和数据中台的基础与核心

数据治理|数字化转型和数据中台的基础与核心

如果说数字化转型和数据中台是企业的战略目标,那么数据治理就是战略目标的基础也是核心。

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。


数据治理不是一个动作,而是要对数据的获取、处理、使用进行监管的一个持续的管理体系,包括组织、制度、流程、工具,是企业实现数字战略的基础。数据治理的最终目标是提升数据的价值。


为什么要进行数据治理?

一、企业内部数据现状


互联网时代,每分每秒都在产生大量数据。对于企业来说也不例外,员工数据、经营数据、业务数据每天都在新增、都在变化。


在企业内部,对于一些新兴业务,能通过购买软件产品来进行数据的统一输入和输出,但也只限于单个业务,不同业务产品之间的数据不是完全连通的。


同时,仍然有一大部分传统业务还靠手工记录或管理数据,通过纸质记录或电子表格、电子文档来存储。


企业内部数据体系越来越庞大,数据形式更加多样化、存储方式不统一、各自为政。


在这种情况下,企业需要通过数据治理针对不同的部门、不同业务建立数据输入、加工、清洗、存储、共享、应用的对应标准,最终形成有效的数据资产。


二、数据治理的意义


数据治理是大数据应用过程中不可缺少的基础环节,对企业来说有重要的意义:

       ●打造数据平台,解决数据孤岛问题;

       ●成数据资产管理和使用机制;

       ●对数据进行业务定义,形成数据共享;

       ●保障数据的安全性和完整性;

       ●建立数据模型,满足业务扩展的需要;

       ●实现数据使用的闭环;


不管是企业数字化转型,还是建设数据中台,最终目的都是依托企业数据资产,驱动增长企业内外部业务增长,将资产转化为资本,帮助企业开创增长的第二曲线。


所以,如果说数字化转型和数据中台是企业的战略目标,那么数据治理就是战略目标的基础也是核心。






数据治理体系建设

数据治理体系建设三要素:


                 合理的平台架构

                 ●完善的治理服务

                 ●体系化的运营手段


传统的数据治理流程是这样的:



海量ADP的数据治理流程:







数据治理体系的核心功能:

数据获取

功能说明

以需求为驱动,以数据多样性的全域思想为指导,采集与引入企业内外部数据,并支持周期性的数据更新操作


主要特点

EXCEL、PDF、DOC等多种文件格式

数据库读取

数据API调用

互联网数据网络爬虫


技术方案

海量网络爬虫集群

海量数据格式转化SDK

海量数据平台自定义扩展能力



数据仓储

功能说明

对获取到的原始数据可进行按类别按来源渠道进行分布式存储,确保数据的安全以及具备数据的增量存储机制,同时可以进行元数据的管理。


主要特点

分布式存储架构

支持大规模量(TB级别以上)的数据存储方案

数据安全性有保证,有灾备机制


技术方案

Hadoop数据存储集群

MPP数据处理架构

元数据管理系统



数据整合

功能说明

对非结构化的数据进行结构化处理

对结构化的数据进行数据清洗(杂质过滤、数据归一等)

对多种文件格式的数据支持进行格式转换,信息提取


主要特点

形式结构化、语义结构化、命名实体识别、信息抽取、字段归一、杂质过滤


技术方案

海量ADP系统(自助式数据整合平台)

海量NLP技术(中文分词、语义分析、实体识别等)

海量大数据加工整合能力





数据治理体系中的数据分类
数据治理体系建立完成后,企业内部数据由产生到应用可分为四层:


原始数据

内容:结构与原始数据保持一致,实时同步原始数据,增量存储

用途:溯源、汇集、资产



标准数据

内容:经过数据清洗、整合、加工、分类的可管理的标准数据

用途:数据模型标准化、规范化



主题数据

内容:按照应用分析对象进行数据整合,面向应用提供数据服务

用途:数据融合,主题集合



指标数据

内容:完全结合前端应用、可视化数据结果指标

用途:统计指标、建模指标






总结



通过有效的数据治理,将分散在企业内部各业务系统中的信息流数据进行融合、打通,让孤立的数据转换为有关联的信息,降低数据重复度,实现数据入口、出口的统一化、标准化。


确保企业数据可信可用,从而全面释放数据资产的价值,实现企业数据资产的盘活和有效利用。


最后还要说一点,数据治理不是哪一个部门的职责,而是需要企业内部所有部门联合完成,并且需要贯穿数据的整个生命周期。


发布需求