趋势 数据的开放与共享
随着高等教育信息化水平的不断提升,产生并积累了大量的数据,过去这些数据封闭、沉睡、孤岛现象严重,2015年国务院《促进大数据发展行动纲要》中明确提出,要大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放。数据开放将会有力推动产业的创新发展,培育新兴业态,促进分享经济的发展。
互联网的普及促进了开源文化,也推动了开放数据运动。严格意义上讲,维基百科定义的开放数据(Open data) 指的是一种经过挑选与许可的数据,这些数据不受著作权、专利权以及其他管理机制所限制,可以开放给社会公众,任何人都可以自由出版使用,不论是要拿来出版或是做其他的运用都不加以限制。但在目前绝大多数信息系统封闭的现实下,依据不同的应用场景,制定不同类型的数据开放和共享可用规则更有操作意义。
简单来说,数据若想被认作是“开放”的,其必须满足:1.可访问,通常意味着在网上公开发布;2.以机器可读的格式提供;3.具有允许任何人访问、使用和分享的许可证——可以是商业的,也可以是非商业的。
平台 以开放数据为核心的校园创新生态
世界银行发布题为《2016世界发展报告:数字红利》的报告,尽管互联网、移动电话和其他数字技术在发展中国家快速推广,预期中的数字红利,如更高的经济增长、更多就业机会以及更好的公共服务却没有如期而至。互联网通过三种重要机制推动发展,促进包容、提高效率、推动创新。世行解释了三种机制如何作用到企业、个人和政府。
按照世行这个思路,笔者尝试用包容、效率、创新三种机制作用到大学校园中三个主体:教授、学生和管理,关于教授和学生的部分限于篇幅,不赘述。管理部门在事前事中事后,可以利用互联网技术鼓励师生更广泛地参与,更快速地了解主体需求、适时调整决策、评估决策效果。最终,高校的创新成果需要得到社会的认同,为社会培养更多的高水平有责任感的人才,教授的学术追求能得到更多的社会支持。所有这些的核心要求是管理部门的数据能力提升,大数据时代需要重新定位高校信息化部门。
数据是智慧校园的基础,数据平台作用是数据的管理和共享,包括数据采集、治理、存储、计算、应用等等。高等学校的数据产生除了教务、科研、财务、人事和资产等核心业务系统,随着高校信息化建设的不断完善,数据逐步延伸到校园文化、学工、校友等内涵建设,这类数据以结构化数据为主,但由于各种原因,数据质量普遍不高,需要加强数据治理。网络信息安全在高等教育领域越来越受到重视,各高校加强了网络流量和系统日志的收集,这类数据量巨大,异构复杂,同时还需要有实时处理能力。物联网、视频监控网的应用在各高校也得到了应用,社交网络和舆情新闻受到高校宣传部门的关注,这些都是非结构化多媒体数据,对这类数据的分析应用各高校都在探索中。不同于一般企业的数据,高校的统一身份认证和一卡通系统普遍应用,因此上述几类数据都可以通过身份数据关联起来。
在建设数据平台过程中,虽然有很多方案可以选择,架构也日趋成熟,但目前还没有一个一站式方案解决采集、治理、存储、计算和应用等所有问题。尤其在上海交通大学这样的以科研创新为主的高校,不仅要满足日常信息系统业务的需要,更要满足科学研究和教学创新的需要。因此,我们的目标是完全独立地使用开源社区的解决方案来搭建一个一站式的共享数据、计算和代码的数据平台。我们的平台完全使用开源软件,自己选取设计组件,包括了Hadoop、Cassandra、Kafka、Gitlab、OpenRefine、Kibana、Grafana、Jupyter等20多个开源软件,自己搭建和运维。开源软件代码公开并且由开源社区维护,非常适合高校这种IT经费相对较少但是智力资源较多的环境。我们的平台用于校内部分公开服务,也定期提供给数据大赛这种大规模、高强度、集中式、密集计算的场景使用。
在开放数据门户建设方面,我们采用了CKAN 开源软件搭建了data.sjtu.edu. cn。CKAN是可以方便搭建集数据发布、数据共享、数据搜索和数据使用为一体的管理平台,并且提供了强大而完善的RPC APIs供用户调用。它的基本组成是数据集和组织,数据集是数据存储的基本单元,其中可以包含多个资源文件,提供丰富的元数据,同时可以方便快速地搜索和下载使用。组织是用来创建、管理、发布数据集集合的,用户可以在组织中扮演不同的角色,并被赋予不同级别的权限来创建、编辑和发布数据。CKAN已被美国、英国、澳大利亚部署用于国家层面的政府开放数据平台建设。上海交通大学在国内较早使用CKAN,Bing用CKAN关键词搜索,data.sjtu.edu.cn网站排名第三,第一是CKAN官方网站,第二是CKAN的维基百科。
案例 上海交通大学开放数据及成果
上海交通大学于2015年在国内高校率先举办了智慧校园开放数据大赛,我们开放了2014年8月~ 2015年3月WiFi网络、一卡通、气象三个数据集。网络数据集由上海交大 WiFi 网络用户的上网流量统计产生,该 WiFi 网络覆盖交大主要校区,WiFi 热点涵盖了教室、宿舍、公共活动建筑以及部分室外开阔场地,包含了20000个匿名用户,1200万条数据记录,包括上网地点、上网时间、应用类型等。用户特征包括了性别、年龄、年级、本科或研究生等。一卡通数据集由上海交通大学一卡通的消费记录产生,消费包括了食堂餐饮、洗浴、超市购物等,包含了30000匿名用户、300+校园商户、420万交易流水。气象数据包括了上海气象局交大观测点每10分钟采集的数据,温度湿度风速降水等14个气象要素。
大赛吸引了校内外500多人参与,经过宣讲会、数据训练营、初赛决赛,最终60个队伍提交作品,冠军由中科院联队获得。学生的参与度、想象力和数据分析能力超乎想象,甚至通过数据挖掘发现了管理的盲区。
大赛请到了复旦大学公管学院、校内电信学院、管理学院、数学系、工业设计系等多个院系的专家教授以及学校后勤集团、赞助企业、投资人,汇集各方力量,从可行性的角度共同商讨智慧校园开放数据环境下的创新创业机会,促进作品以校内应用或创业项目的形式落地。
大赛直接孵化了科赛学生创业团队,目前已经成为国内知名的大数据竞赛平台,获得了数百万的天使投资。大赛的所有成果也在kesci(www.kesci.com)网上开源。开放数据的理念在上海交通大学也催生了多个学生创业团队,比如迈科技致力于高校科技成果转化,获得了数百万天使投资。执楠信息是上海交通大学与上海气象局共同孵化的创客团队,利用气象开放数据研发了可穿戴设备“气象徽章”,得到了国家气象局的高度肯定。
思考 开放数据的风险防范与法规监管
数据开放可能会涉及国家安全、商业机密和个人隐私,因此数据开放共享的同时一定要做好风险防范,加强法规监管。对于数据的误读也是数据开放共享中的主要风险,由于院校合并、部门调整、集成商变更等原因造成目前高校基础数据的质量普遍不高,数据冲突、数据缺失、数据错误、数据杂乱导致分析结果不可信,因此需要加强数据治理。
我们的思路是做好学校的数据编目、数据资产和数据血缘的梳理,联合业务部门共同做好数据治理以及开放共享风险评估。这里我们强调风险评估一定是基于应用而不是基于数据集的,不同的应用可能并不需要原始数据,仅仅需要脱敏数据或者统计数据。然而,由于确定数据应用风险无经验可循,需要业务部门付出很多额外精力,对于风险评估可能存在潜在的消极影响。
他山之石,可以攻玉。我们借鉴了美国华盛顿大学的案例。华盛顿大学信息技术中心设立了信息集成与分析部门,该部门负责数据集成、元数据管理、信息设计与架构、数据仓库、商务智能、数据管理和分析工具等技术解决方案,为学术和管理提供决策支持,并提供培训服务。这个技术部门接受数据管理委员会的指导和监督,数据管理委员会由教授和职能部门官员共同组成。各类系统应用和教职员工可以向数据管理委员会申请访问数据。
(作者单位为上海交通大学网络信息中心)