数据质量的概念
图1将数据质量的常用评估标准按照4个不同的方面进行了描述。可获得度指用户获得数据的可能性和便利程度,在收集数据之前,用户必须要考虑能否得到、怎样得到数据。可理解度是指数据必须是用户可以理解的,包括语法、语义等,使用户可以理解数据,从而才可挖掘数据,这是基础的要求。可信度是对数据的真实性的测度,可信度相对较抽象、主观,可具体再划分为准确性、一致性、完整性、唯一性、可靠性等具体的维度进行评估。可用度是指数据对于用户的效用的大小,数据是准确的但是不一定有意义,或者对某一群体用户有用,对其他用户是没有需求和效用的,包括相关性、时效性、可比性、有效性等。同时,它们也是相辅相成的,如果数据准确性差,那么它的可靠性、有效性也就大打折扣,如果数据能够做到准确、一致、有时效,那它必然也是比较有可靠性的。
高校数据质量的现况
主观上的重视程度
越来越多的高校信息化从业者已经开始重视起高校数据及数据质量相关问题了。在学术上,简单地从2002至2014年度的某数据平台关于数据质量的研究趋势上,即可直观感受到近年对数据质量的相关研究的热度在持续稳定的上涨。从2002~2005年间每年30篇以下的论文数量,至2012~2014年间超过150篇,年度命中数从20上浮至50。其中高校+数据质量的相关研究数量和趋势类似,同时,高校的数据质量问题与高校信息化建设的发展进程密切相关。
目前,高校的信息化建设进程从“局部信息化”向“全面信息化”转变,建设内容从信息化基础建设转变为信息化服务建设,建设的焦点从“提供最基本的信息化服务和满足基本管理要求”逐渐转移到了“如何更好地向师生提供数据服务、决策支持”。信息集成和应用集成是大势所趋,而在信息集成的过程中,数据质量可能会出现怎样的问题?如何解决各类数据质量问题,有效地收集、清洗、存储、推送、挖掘、呈现数据,每一步都值得大书特书,最终使数据最终能够满足用户需求。
客观上数据质量的实际情况
在对高校各类业务数据的实际应用过程中,还是能够发现数据质量的不足。当前高校数据质量主要存在以下几个问题:
一是数据源头不明确,造成数据唯一性、准确性问题。一方面可能是管理职能有所重叠,一方面也可能是常用的信息在多个业务环节都进行了重复采集,例如师生的联系方式信息。同一个字段,可能不同的系统中都存在,但是存在出入,那么以哪个为准呢?
二是数据采集后,格式不统一,不完整,造成数据完整性、语法问题。这是由于不同部门,甚至不同操作员之间对同一数据的使用习惯和方式不一致造成的,可能仍有部分数据并不完整。
三是数据不及时,造成时效性、准确性等问题。由于采集周期或同步推送周期的影响,各应用端使用的数据可能并不是最新的。
四是数据共享问题,有些数据仍不能方便地获得,或不能保障周期性地获得准确实时的数据。
五是对历史数据和冗余数据尚无统一完善的处理办法。数据质量对数据服务的影响。
如在实际工作中,发生了上述数据质量问题,将会直接影响到各系统间的协同效率及使用效果,降低师生的使用满意度。
首先要保障数据的唯一、完整、准确、可靠、可理解,保障数据是可以使用的。如数据首要的这几个属性得不到保障,后续的相关统计报表,策略建议的可靠性也就大幅降低了。
同时要保障数据的时效性,旧的数据即使准确可靠,但是不能满足用户的需求,它就是低质量的数据。例如用户在校园卡终端想要查询到自己当天的消费余额、消费记录用以核对自己的支出情况,如果反馈的数据明显是若干天前的,显然不会让用户满意。
如数据质量较差,将会给管理人员和用户带来许多使用上的不便,由这些数据延伸出来的报表和策略建议往往也是充满了矛盾、漏洞和明显的不合理处,需要人工再次进行纠错、核对,增加工作量。举个例子,某次关于学校学生住宿信息进行统计时,发现在校住宿学生比学校学生总人数还多10%,这是不合常理的。经过实地调查,发现部分是因为有一些老生虽然已经退宿并离校,但其在住宿系统中信息还未被确认,部分是因为有些学生需要进行实习,申请了另一个校区的宿舍,因此其同时有了两条住宿信息,也有部分是因为学校安排辅导员住楼,更好地开展学生工作,但是在住宿系统中错误地登记为学生住宿。其中,有管理上的问题,有信息系统字段管理的问题,也有统计方法的问题,但终究也是数据质量的问题,该数据的时效性、准确性、完整性很需要进行提升。
数据收集:坚持“一把手”录入
数据源头的梳理是华东师大信息办日常工作之一,在各信息系统建设的前期调研工作中,就通过业务梳理等工作明确数据源,在源头上严把数据质量关。明确数据的每一个字段的唯一来源之后,监督和指导该业务负责部门完成其应担负起的维护任务,及将数据推送给其他业务部门的共享任务。
当该工作的成果推广到全校各个业务系统后,任一信息系统需要使用某数据时,都有一个渠道得到权威、准确的数据。同时,可有效减少非数据源部门采集数据的工作量,避免多头采集的问题。
例如学生的手机号信息如以在教务处登记的为准,在学生在报修登记时系统可直接读取到该字段,并通知学生报修进度,学生发现读取到的联系方式已经过时了,可以去往教务系统对应入口进行修改等。
数据存储:集中建立数据中心
首先,在各数据源所在信息系统中,进行初步数据梳理和清洗,建立有完整数据理解度较高的多个视图、字典表等。然后,部署Oracle数据库,将从数据源获得的源数据通过ODI等ETL工具,将数据进行收集、存储在数据中心。
例如在教务相关系统中,学生相关的数据表可能就有学生基本信息表、学生选课信息表、学生类型字典表、学生成绩表、课程评价表、课程基本信息表等。在对它们进行数据梳理和清洗时,要将原基础表中较为难理解的字段,替换为字典表中的详细表述,将“1”、“2”替换为男女,将“0129”替换为“图书馆”;也要根据需求将零散在各个表中的数据整理到一张表中,比如全校学生个人信息所有字段表,因为原先学生的姓名、性别、学号、身份证等在基础信息表中,而他的籍贯、生源地在学生入学信息表中。
数据使用:统一发出接口
根据业务信息系统的对数据的需求情况,统合、整理数据,再利用WebService、ODI等多种工具推送到各个业务系统中去。
例如目前在建的新学生住宿系统,仅需向信息化办公室提出其建设中的具体数据需求,即可从数据中心通过各接口获得学生基础数据、学生-辅导员关系数据、辅导员基础数据、学生住宿费缴费数据、新生兴趣爱好数据等,而不需要关心数据怎么从教务系统、研究生系统、学工系统、人事系统、迎新系统、财务系统等其他业务系统中获取。而在后勤宿舍管理员在实际使用中,发现数据不准确的情况时,可以将问题反馈给信息化办公室,数据中心管理人员可据此倒推回到数据源,通知数据源业务系统负责老师,进行进一步数据核验、修正等。
建设数据流转框架
结合现有数据中心建设情况,进行数据流转优化工作。拟建设数据流转框架如图2所示。
实线部分现已基本实现,即数据源中的数据经过梳理、形成视图,通过ETL工具抓取到WebService数据中心后,再行整理为不同数据接口x、y等,有该数据读取权限的业务系统可通过认证调用接口并获得结果。
虚线部分正在调研、建设中,在拥有a、b数据修改权限的业务系统中(操作者可能为该数据的“一把手”、也可能是终端用户),可以调用反馈接口,将修正的a、b数据通过接口认证,反馈回WebService数据中心。数据中心进行数据的分析、整理、确认后,将数据修改信息反馈回IDC数据库,进行数据更新操作。每一个环节,都需要进行数据质量的校验,至此,即实现数据的循环,数据质量在梳理、整合、发布、反馈、更新。
总而言之,数据质量的优劣关系着高校信息部门能否给普通师生、管理人员、校领导等提供有效准确、高效、有效的数据服务,决定着信息化工作能否从数字校园的建设成功过渡到智慧校园的建设。
因此,在此提出几条简单的建设意见:
1.建设积极的数据质量管理环境
首先管理层要认识到数据质量对于高校各项业务及信息化各项工作的重要性,推动数据质量的改进工作。加强信息人员队伍的建设,提高数据管理人员的数据质量管理意识。梳理建立完善的制度管理,确定数据质量管理的流程,建设本校数据标准、数据质量的标准。
2.集中力量进行一次数据整理和清洗
在理论上建立了数据标准和数据质量管理制度之后,需要花较大的时间和精力对全校的各业务系统进行一次清洗,并以此次清洗后的数据为基础,开展数据质量管理工作。
3.数据质量定时核查
除了建设数据质量管理制度,还应当建设数据质量的监测制度。数据一旦产生问题,管理上有人员核验、整理、汇报,技术上可追溯、清查、修正。将数据质量的核查作为日常工作,才能全面地、持续地维持数据质量。
(作者单位为华东师范大学信息化办公室)