在过去的六个月里,我见了20家科技型公司。大多数都是大公司或非常大的公司,但也有一些小公司。我们讨论了他们真正的数据治理。
与我交谈过的人有:
一家跻身全球前五的Bank;
全球排名前三的分类平台;
两个跻身全球前十配送企业;
全球排名前十的电子商务平台;
总共有来自5个国家的20家公司,它们都是各自领域的领导者。他们的员工人数从3,000人到100,000多人不等,并拥有先进的数据平台解决方案和团队。
我整理了发现并与大家分享。其中80%是观察,20%是结论。以下是几个方面的总结:
1.数据治理的启动和支持
数据治理仍在从非正式计划向更体系化的计划过渡。在40%的公司中,数据治理并未作为单独的计划或团队建立。这通常是因为数据治理已集成到数据平台团队的流程中或属于其他计划的一部分。在大多数其他公司中,专门的数据治理计划仅在过去三年内才启动。
通常,项目启动时会证明开发数据目录和数据质量框架的合理性—“数据平台内有一个DC/DQ团队,但没有数据治理计划。”纯粹形式的数据治理表现为对报告的不信任问题以及其生产流程的放缓。只有当这个问题被认定为关键问题时,才会同意实施。
自上而下的数据治理计划在有CDO的公司(45%)最容易启动。有时,发起人包括CTO或CEO,但更常见的是,在信息安全(30%的公司)和成熟领域团队的支持下,自下而上地取得进展。成功的关键是同时获得自上而下和自下而上的支持。
2.数据治理的痛点和驱动因素
该计划通过以下原因获得批准(从最常见到最不常见):
•简化分析师的数据发现(查找数据、理解数据、评估质量、确定所有权、获取访问权限等)
•提高数据请求处理速度
•提高关键数据的质量
•一致报告并解决指标差异
•需要跨职能数据使用:缺乏协作使用数据质量的导航和理解
•管理合规风险:确保遵守法律和监管要求
•标准化数据整合:需要标准化数据平台,以便快速整合被收购的公司
3.角色模式
大多数公司(65%)称已实施数据保管员角色。其他名称具有相同的含义—域管理员或数据管理员。此技术角色由系统分析师或数据工程师担任,负责确保在其域内数据对象的主要功能:数据质量检查、架构统一、模型文档等。此角色有时由域领导者的非正式角色补充,域领导者通常是该领域分析团队的负责人。
数据对象所有者的角色更难实现,也不太常见。通常,该角色的缺失可以通过域内称职的数据保管人或轮岗制度来弥补。
最难实施的分散角色是业务数据管理员,其重点是词汇表、语义、文档和内容。组织努力让担任此角色的个人参与并定期、有效地工作。
绝大多数公司都没有专门负责数据治理的委员会和理事会。数据治理项目的讨论通常分散在其他例行会议上。
4.数据目录
当谈到公司的数据治理时,每个人都会谈论目录。人们通常设法找到资源来开发具有集成功能的目录。重点是血缘、元数据实现、数据检查状态、与Git的集成以及使用个人数据标记字段。
开源的完善是公司关注的重点。Datahub是领导者(70%)。至关重要的是,该工具应该对推动方法开放,并拥有庞大的贡献者社区。
有一种感觉,技术平台团队“隐藏”在目录后面,避免处理复杂的问题:角色结构、分配所有者、构建域、管理目录内容、词汇表(链接到语义层)、“黄金”数据对象层、数据检查的广泛覆盖和审查、数据合同等等。
据说,没有目录你也能活下去—数据管理可以在“聊天”中完成。这在域间数据跨功能使用最少的独立域中有效。
“除了一些主数据外,无需共享数据。每个人都在自己的域内工作,不会冒险出去——反正也没有访问权限。特定领域的聊天足以进行导航。”
5.业务词汇表
20家公司中只有2家拥有整合的词汇表和指标树。
尽管指标不一致是主要痛点之一,但词汇表总是被推迟。缺乏吸引业务专家和促进跨领域工作的技能,而这对于词汇表的形成至关重要。这正是需要数据管理员的地方。此外,正确的方法还需要同时启动创建语义层的项目。
多年来,公司一直在没有词汇表的情况下运营,只是依靠共享概念。词汇表是业务相互理解的界面。这可以通过分析经理的坚实支持来弥补。对于数据人员来说,构建物理层、指标存储和黄金层更为重要。
通常,词汇表会出现在成熟的业务线或领域之一,但数据平台却难以将其提升到全公司范围的水平。
6.数据质量管理
公司从三个层面解决问题(在理想情况下):
•核心数据平台:在摄取阶段建立规则(仍然是比较少的情况)、检查和警报系统。
•数据工程师:在转换阶段创建并维护一个检查层。理想情况下,这是建立经过认证的数据层的地方,在此基础上构建语义指标层。然而,实际上没有人拥有这个。
•BI团队:最后使用他们自己的工具清理报告层中的数据。
主要问题是有工具,但没有流程。每个人都设法用数据质量检查+通知和自动任务覆盖原始层—大量检查夜间更新。视图层覆盖不充分,流程缺乏控制和目标。
大多数公司使用检查器来监控关键层的指标覆盖率,但只有10%的公司报告监控SLA的响应和解决时间。
7.效率
•效率评估大多是定性的。
•没有全面分析数据治理效能的例子,大家都在规划。
•相对于数据而言,熵已经减少了。
•通过删除大量数据,我们使用4PB的Hadoop集群节省了20%。
•目录的实施对产品上市时间和数据事件的解决时间产生了积极影响。
我们进行了一项分析,比较了不使用目录通过聊天进行搜索的持续时间与使用目录进行搜索的时间统计数据。公式包括:查询次数、分析师人数、分析师总成本。结果为进一步的项目投资开了绿灯。
•30%的公司由于长期努力却没有明显成效,出现了缩减公司内部活动的趋势。
数据治理MVP在由经验丰富且受人尊敬的高级领导领导的项目中,团队可以更快地获得切实的利益。
8.挑战/计划
数据治理经常与公司的文化发生冲突。制度、角色分配和例行工作被认为缺乏明确的价值,被认为是无稽之谈,导致实施团队半途而废。
“数据不只是你的”这一认识以及以产品为导向的数据认知发展缓慢。域团队没有采取主动的立场,而是继续满足业务利益相关者的直接请求。
没有实际的角色采用,也没有人开始解决这些角色。
在二十家公司中,只有一家推出了单独的人工智能治理计划。
最常提到的项目计划是:
•制定数据访问规则
•开始实施数据管理框架
•实现数据对象和域的认责
•创建有关目录和整个平台
我的想法
首先,让我根据我见过的所有公司的故事来形象地描述开始数据治理的合理方法:
首先创建一个工作组,分析痛点,并在“常规数据治理”和数据治理MVP项目中启动速赢项目,这是很有意义的。让我们深入了解一下。
根据公司的成熟度、规模和业务特点,单个计划的成本可能会超过其价值。因此,在情况发生变化之前,开始这些工作可能没有意义。从简单开始,随着成熟度的提高而增加复杂性是合乎逻辑的。您需要自己进行评估。我只是根据收益实现速度和所需付出的努力提供我对该顺序的评估(见彩色的1、2、3阶段)。
您可能会说:“那么数据治理的意义何在?我们已经在做或计划在没有数据治理的情况下做这件事了。”太好了!
数据治理本质上是一个组织和工具层,有助于集中和协调资源,以确保工作完成,而不会悬而未决地停留在各个团队的路线图中。
数据治理团队协调此过程,从数据治理MVP开始及以后战略性地开发流程和技术基础,并同步其他团队(数据平台、数据工程师、核心BI、数据管理员)的工作。
如果没有专门的数据治理团队,DWH/数据平台负责人或BI主管将承担他们感兴趣的领域的一些计划并取得成果。这种情况经常发生在小型公司和初创公司中。
“标准化数据生命周期操作(Data/BIOps)+基本DQ检查和工具+DWH/BI报告指标”这样的一套项目已经带来了巨大的价值。这可以称为“数据治理常识”。
随着平台规模的扩大,这种治理类型开始“瓦解”——有必要建立超越单个团队的榜样、扩展DQ、对数据进行分类、协调跨团队的努力等等。
在这种情况下,DWH/BI领导者缺乏权力、兴趣和资源来拼凑“完整的拼图”,系统地、全面地推动成熟度,并推动额外的角色。此时,大家需要团结起来,成熟地评估问题的影响,组建项目团队,并启动数据治理MVP。如果驱动数量未达到临界数量,则不启动该计划。
在我看来,有几个成功因素至关重要:
无论您实施的是全面“重型”数据治理还是“轻型”数据治理都没有关系。
•向企业解释数据治理并期望获得强有力的支持是没有用的。企业会支持它,但他们永远不会为了数据治理工作而搁置自己的任务。数据治理需要由数据和分析领导者来推动。团队在关键岗位上的成熟度才是真正重要的。
MVP数据治理策略不仅在审批困难时才有意义。MVP可让您测试想法、为扩展特定主题奠定基础,并加速实现收益。
•数据治理领导应该是“受人尊敬的老将”之一。你可以从外部聘请,但你必须等他们成为“老将”,因为没有人会认真对待他们,并尽早改变他们的流程。预计会有破坏和象征性的努力。沟通技巧、权威、失败经验和意志力至关重要——以确保数据治理领导不会在第一次挫折后就精疲力竭。
•协调团队优先事项至关重要。所有关键举措都是跨角色的。说“我们制定了一种方法,但他们没有遵循”只是小儿科。
•核心BI团队(我更喜欢叫它跨职能分析团队)的作用对于开发指标树和词汇表、根据重要性细化对象分类、创建黄金层以及管理内容至关重要。该团队还承担“较弱”领域的数据管理员角色。
•数据保管人/数据合作伙伴/数据域长的角色可能比数据管家的角色更为关键,至少也更为基础。该角色可以分布在数据平台、BI团队和跨领域团队中,涵盖运营数据管理的整个核心周期。
祝大家数据治理之旅愉快!一定要做好充分准备。这不是一次观光旅行;这是一次漫长的沙漠跋涉,需要坚强的意志和一支可靠的团队。
温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息
版权与免责声明:
感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容:
1.该文章主要收集于互联网,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性。
2.本网站的所有信息仅供参考,不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。
3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时,建议您立即联系本网站的站长或管理员进行删除处理。
分享到
