杂志汇中国信息化

企业信息化元数据管理方法研究

作者:文|谢庆庆
一、引言

信息化时代各类企业、单位日常运作都已离不开信息系统的支撑,尤其是大型企业对信息化的依赖程度越来越明显。企业在信息化建设初期,有限的投入就能够快速看到应用成效,但是当企业信息化发展到一定程度,大型信息系统比较多、信息化程度比较高的时候,往往会出现企业信息系统建设和运维负担越来越重的现象,开发、运维效率会明显下降,尤其是在人员发生变动和系统更新换代时表现得尤为明显,知识流失风险大大增加。这其中有一个重要原因就是缺乏全面、准确的元数据,技术人员缺少有效的参考资料去理解系统和数据,只能通过讲解去理解数据和业务,而讲解过程又容易有遗漏和偏差。

由于元数据属于系统底层技术数据,不像系统功能直接面向终端用户,使用频率也相对较低,所以技术人员在系统建设和运维过程中没有将它放在重要位置,也没有为之投入相应的工作量,往往会忽略对元数据的记录、更新、管理、维护、应用,当关键时刻需要使用的时候才发现很不完善。在大数据时代,深度利用数据已经是大势所趋,但是在利用过程中才发现关于数据的许多问题,尤其是在金融行业,所以数据治理成为当前的一大热门话题,其中就包括元数据管理。本文从管理和技术两个方面去探索如何在信息化建设中有效实施元数据管理。

二、元数据定义及作用

元数据(Metadata)为描述数据的数据(data about data),是关于数据的组织、数据域及其关系的信息,是理解系统和数据的重要参考资料,可以说所有描述系统的数据都属于元数据范畴,如需求文档、设计文档、操作手册、数据库设计文档、数据结构、数据字典等等。元数据从内容或面向用户的角度可以分为业务元数据和技术元数据,从记录形式上又可以分为结构化元数据和非结构化元数据。

元数据的主要作用是描述系统,元数据可以帮助技术人员和业务人员全面、准确地理解系统和数据。换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。最基础的管理是管理元数据的收集、组织和维护,技术型元数据的应用对主数据管理和数据治理项目的成功至关重要。

三、元数据管理方法研究

元数据管理是语义工具,其重要性在于它能够为组织建立一套数据资料库,存储组织范围内的数据定义、负责人、来源、转换关系、目标、依赖关系、安全权限等。这些信息对于业务整合、数据质量、可审计性等数据治理目标的实现至关重要。

元数据管理就是将分散在众多业务系统中各类描述性数据进行归集和整理,纳入到统一管理平台,保证信息全面、准确,为组织中的技术和业务人员提供帮助,包括数据元素和实体的定义,业务规则和算法以及数据特征的描述。在明确了元数据管理内容和要求后,企业可以根据需要选择合适的业务元数据和技术元数据管理工具,并制定相应的管理制度进行全面的元数据管理。元数据管理涉及系统广、种类多、变化频繁等因素,需要管理措施和技术手段相互结合才能有效推动,取得成效。

(一) 管理措施

1. 提高思想意识,重视元数据管理

目前IT组织中元数据没有管理好,无法充分支持技术和业务人员工作,没有发挥出重要作用的根本原因是组织对元数据管理的重视程度不够。现在企业信息化部门对元数据的概念并不陌生,也认可其重要作用,但是由于经费、人员以及元数据本身面向内部人员而非终端用户的性质,导致组织并没有将它提升到重要地位,只有在关键时刻才会意识到元数据的重要性,在数据治理迫不得已的情况下才会实施元数据项目。

2. 技术部门主导,推动元数据建设

元数据在整个信息化环境中处于底层基础位置,元数据管理不同于日常业务管理活动,它属于技术活动,开发、维护和管理需要技术人员完成,因此需要组织中的IT技术部门站在全局角度去统筹规划,通过制定相应的管理办法、流程规范去推动元数据项目建设。首先要定义元数据应该包含的内容以及合规要求;其次制定元数据产生、采集、变更、维护、使用、下线存档全生命周期中涉及的工作内容及人员职责。

3. 制定管理规范,明确工作要求

元数据的有效管理、利用离不开规范的约束,配套的规范制度应该随着元数据管理平台的建设同步制定。管理规范主要包括贯穿于元数据整个生命周期的具体要求和注意事项,具体有:①元数据在信息系统建设过程中产生,杜绝事后补充的现象,而且元数据要准确、全面,符合技术规范,需要技术人员审核确认;②系统的功能、数据结构等发生变更的时候要及时维护相应的元数据,保证元数据与系统的一致性,同时能够保留元数据的历史版本;③系统开发、维护、使用过程中,相关人员要充分参照元数据,避免业务活动与实际系统脱节;④系统功能和数据下线后,应该将相应的元数据存档,以备日后关键时刻查阅。

4. 充分利用元数据,发挥应有作用

目前,元数据主要应用场景还是局限于元数据系统的内部功能,比如血缘分析、版本管理等,这些功能还是太偏向技术人员,实际上元数据可以发挥的作用远不止这些,IT组织应该创新性地充分挖掘元数据利用方法。元数据被利用越充分,价值体现越明显,元数据管理和利用是相互促进的过程,管理好了有利于深度利于,使用中发现问题又可以反向促使完善元数据。组织中的业务人员和技术人员要逐步培养使用习惯,日常工作要习惯查阅、参照元数据。

图1 元数据管理平台架构(二)技术手段

1. 构建元数据管理平台

元数据管理平台一定是具备统一管理企业内所有元数据的全局性平台,平台架构如图1所示。

(1)源数据层是组织中产生元数据的源头,主要分布在各种业务系统数据库,还有各种技术文档和业务文档。

(2)数据采集层,负责将业务系统和线下的各类元数据自动采集到元数据管理平台。对于存储在业务系统数据库中的结构化元数据,以数据库内置系统表为主,以人工补充为辅。非结构化元数据的采集工具需要具备多人协同编辑、保留历史版本的最基本功能。

(3)元数据存储层,元数据一般分散在各个角落,可能会杂乱无序,所以从源头采集到的元数据一定要按照规范、有序的结构重新编排、组织、存储,便于前端查阅使用。

(4)展示应用层,为技术人员和业务人员提供访问元数据的入口,应该具备易于查询、阅读的使用体验。

2 结构化元数据管理

结构化元数据管理主要包括两个方面:元数据产生源头的技术要求;自动化采集功能。

结构化元数据主要集中于业务系统数据库中,为了保证元数据的质量,在建设业务系统时需要遵循相关的技术要求,主要包括:采用数据库设计工具如PowerDesigner、Erwin等正向生成数据库脚本,并创建物理数据库,避免在数据库中修改结构;必要的物理主外键等约束不可缺少;表和字段统一使用英文或缩写来命名,便于阅读;表注释和字段注释不可缺少;各类数据字典存储在数据库中,避免记录在配置文件中,便于自动采集、管理。

数据库中的元数据采用自动采集的方式来搜集,不仅能减轻工作量,最主要的是可以保证元数据的准确性和及时性。一般数据库都有内置的系统表来记录元数据,以下是Oracle数据库某一用户中的一些常用系统表。

USER_OBJECTS:用户下的所有对象

USER_VIEWS:视图详细描述

USER_TAB_COLUMNS:表和视图的字段信息

USER_TAB_COMMENTS:表和视图注释

USER_COL_COMMENTS:表和视图的字段注释

ALL_DEPENDENCIES:对象依赖关系

ALL_TAB_PRIVS:对象授权关系和权限

通过以上系统表就可以清晰掌握数据库的最基本元数据,通过表之间的关联形成便于阅读的数据格式导入元数据管理平台。对于字典表及线下的结构化元数据,按一定时间频率导入到元数据管理平台,这样就形成了一套完整的结构化元数据,技术人员可以通过元数据管理平台进行查阅。

3 非结构化元数据管理

谈及元数据,往往首先想到的是结构化和技术元数据,实际上以文档形式记录的非结构化和业务元数据在某些应用场景下更加重要,管理方法和难度与结构化元数据有很大差别。主要注意事宜有以下几点:一定要在系统建设、运维过程中同步记录、维护,保证和系统的一致性;为了提高编辑效率,可以选择现在比较流行的在线协同编辑工具,多人同时编辑维护稳定;文档要保留历史版本,方便跟踪和比较版本差异,而且每一个版本都应该有相应的修改摘要说明;非结构化文档内容较多,选择合理的组织、展示方式非常重要,可以提高查询效率。

4. 消除技术壁垒,与业务结合,提高利用率

由于元数据本身的技术特性,企业在建成元数据管理系统后,发现主要是技术部门在使用,在业务部门的利用率很低。系统应该是为所有业务服务的,只有一个部门使用的系统是没有生命力的,如何让元数据在所有相关部门都被使用是一件很重要的事。

为了提高元数据利用率,发挥元数据价值,元数据应该与实际业务结合,实现面向业务的定制化应用,把元数据做成一个服务化的系统,嵌入到组织各个应用场景中,给其他系统提供能力,让其他系统变得更自动化、自助化,降低使用技术门槛,让元数据管理变成企业一个很重要的基础设施,集成到企业信息化的方方面面,充分释放元数据管理价值。

四、结束语

Gartner在研究报告里已经明确指出,“元数据管理将是未来企业信息化的核心基础设施”。在大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。简言之,当有效管理元数据时,数据变得更有价值。元数据管理不仅是组织有效实施数据治理的核心IT技术,同样也是支撑技术人员和业务人员顺利开展日常工作的重要辅助手段,实施有效的元数据管理不能只关注工具平台和技术手段,组织内相应的管理制度必须要提前建立,相互配合,共同推进。

作者单位:中国电信股份有限公司上海分公司

 

相关文章