高校在数字校园阶段已经建设了数据中心和若干应用系统,通过数据共享平台和数据集成,一定程度上为教学科研和管理等业务提供了数据支撑。随着大数据等信息化技术应用的逐步延伸,业务驱动需求的不断挖掘,原有解决方案或体系架构下的数据质量问题也不断暴露出来,在大数据时代为智慧校园的建设与发展带来挑战[1]。
1.校园信息标准不能有机地与校园业务数据结合,校园的元数据不能自动地根据业务数据生成并且成为信息标准的一部分。2.数字校园建设了数据共享平台,但是数据共享平台仅仅是解决了数据跨业务部门的问题,实现了数据的“运过去”,对于数据的运行质量难以保证,缺乏数据的全局视图,不能质量检查,不能溯源。因而一定程度上制约了学校更大范围的数据共享和上层应用。3.缺乏全局的数据资产管理平台和数据顶层设计。4.松散的高校业务数据环境,缺乏统一的数据管理制度和权限管理。
相关概念与研究
数据质量管理是信息系统建设的首要问题,“数据适合使用的程度”(Fit For Use)是数据质量的主要定义之一,质量属性可划分为正确性(Correctness)、一致性(Consistency)、完整性(Completeness)、最小性(Minimality),数据质量也反映了数据模式与数据实例在以上属性上的距离。从评估治理的角度来看,数据质量也可划分为内在质量( IntrinsicDQ) 、 可访问性质量( Access ibilityDQ) 、 上下文质量( ContextualDQ) 、 表达质量( Repres entational DQ)四个维度。
元数据(Metadata),其含义为“描述数据的结构化数据”[2],也被称为是关于数据内容、质量、条件和其他描述数据特征的结构化数据。
元数据标准与数据质量
元数据包括业务元数据、技术元数据、操作元数据,见表1。
本文认为数据质量管理最主要的目标是安全、正确、时效。因而数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是数据质量的基础。除了数据的①绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括②使用质量、③存储质量和④传输质量,称之为过程质量。
数据质量按照属性可以划分为:完整性、一致性、及时性和准确性。常见数据质量问题及示例见表2。
高校数据标准一般包括数据标准、代码标准。通常参考国家教育行业标准教育管理信息之《教育管理基础代码》(JY/T1001-2012)和《高等学校管理信息》(JY/T1006-2012),以及包括学校的自定义编码标准。在数据执行标准的基础上结合元数据标准,与业务数据(数据源、数据模式)和主数据进行定期的检查比对,发现上述列举的质量问题,并且对与业务数据的正常变化,通过数据管理流程补充和完善到元数据和其他数据标准中,并且通过正常迭代进行新版本标准的发布。通过这样的措施在技术上保证数据质量的稳定和提升。
数据一致性与数据链管理
基于元数据标准的检查对比能够很好地解决数据质量问题中的完整性和值域类型问题。高校环境下由于业务数据具备差异化、异构、松散、冗余的特征,数据一致性在全局的数据管理和质量提高过程中相对其他质量属性更加重要。数据绝对质量的提高主要通过自定义质量规则约束,进行定期的检查来实现。质量约束规则主要有单字段的语法检查(数据特征、长度、规则等)以及多字段的逻辑关系检查(时间先后比较、数量大小比较等)。数据一致性存在于单数据源情况,也存在于多数据源的情况。单数据源中的一致性,通过重复记录检测就可以发现重复数据。多数据源的一致性判定较为复杂。举例如下:学生张三在教务部门和学工部门都存在。
学工部门:A
数据A和B产生了不一致,其算法有3种可能:
(1)Result(A+B) = A (2)Result(A+B) = B (3)Result(A+B) = A结合B
不一致数据的解决前提是确认数据的权威数据源。对数据实体具体到每一个属性都要确定其权威数据来源,则3种可能的结果是确定唯一的。所以,如果学生的学号、姓名、学院、是否在校的数据源是教务部门、手机号码的来源是学工部门,那么计算的结果应该是(3):C
通过确定主数据的权威数据源来实现数据清洗,支撑主数据库的数据一致性和数据权威性。同时数据链的管理也能为主数据管理平台提供数据血缘分析与影响范围分析等管理功能。
主数据与数据管理服务平台
图1展示了高校的统一数据管理服务平台结构,针对本文分析提出的大数据背景下高校数据质量面临的诸多问题,围绕提升数据质量,该平台能够针对性的解决和提升数据质量问题,包括如下个步骤:
1.通过元数据标准(业务、技术、操作)建设,形成高校的主数据体系,通过代码标准、元数据标准,完善高校已有的数据标准,通过自动的数据标准约束检查不断迭代发布更新数据标准。反过来,由业务数据驱动元数据标准的完善和补充。通过数据源和数据模式等元数据信息的定期检查,保持和提高数据标准与业务数据的关联一致。
2.建设具有唯一权威数据源的主数据。针对数据质量属性中绝对质量和使用质量的问题,通过质量约束规则定期检查主数据,形成数据质量结果报告。对于多来源数据不一致问题通过确定唯一数据源进行解决,不能确定数据源时还可通过专家干预的方式进行处理。
3.通过大数据分析处理Hadoop集群平台,进行基于主题数据模型的建模,通过分析计算形成结果数据。保存到主题数据库中,并且登记到统一的主数据平台。
4.在主数据平台的基础上,开放和配置数据访问接口。通过API方式或者传统数据接口方式,满足大批量数据集成访问方式或者Web Service的数据访问方式的接口要求。通过统一的接口配置和管理,实现数据访问的权限管理和访问审计。
5. 数据质量的管理流程制度化:通过定期数据质量约束检查→生成数据质量结果报告→根据数据链溯源→数据质量结果反馈来源部门→数据修正→再次数据质量检查,这样的数据质量管理流程,技术加管理相结合,实现数据质量的提升。
数据的质量问题是高校信息化面临的主要问题之一。构建统一的主数据管理服务平台,通过元数据标准和数据质量治理技术手段和管理流程相结合,能够解决质量问题,满足未来智慧校园的服务需求。 (责编:杨燕婷)
(作者单位为河海大学)
参考文献
[1]徐琦.基于大数据的高校数据整合模式研究[J].中国教育信息化. 2015 (15) :60-63.
[2]刘春燕,侯人华,杜薇薇.国际科研领域元数据研究及启示[J].情报理论与实践.2014,37 (9) :39-43.
[3]高科,刁兴春,曹建军.基于简单规则的数据质量检查系统设计与应用[J].计算机技术与发展. 2015 (6) :176-180.