如今,数据科学已经渗入到包括生物科学、医学信息、医疗卫生、社会科学、人文科学以及工程学之中,并深深影响着经济、商业和金融业的发展。数据科学涉及到数据从采集、探索到分析、交流的整个生命周期,已经成为现代跨学科科学研究的核心。
通过大数据中分析,一是可以帮助人们做社会调查,二是能够训练新一代的数据科学家,三是发展大数据管理与分析技术,四是将技术转化成工业产品,与工业界进行良好合作。
大数据科学研究
1.数据管理数据管理主要包括两个方面,一是融合,就是把不同的数据整合起来。二是分析,在大数据环境下,更重要的是把数据提取出来后进行分解,而不是简单进行查询。以往人们都是用90%的时间进行数据整理,10%的时间来进行分析。数据分析做好了,往往就成功了一半。数据整理工作非常复杂,但却是非常重要的一项内容。
2.数据获取在数据获取中,主要有两个问题,一是使用各式各样的传感器,另一个就是数据交汇。数据进来之后,在数据加工过程中,要动态地获取信息,目前所有的科学研究,都是信息驱动的。
大数据的应用
帝国理工学院包括医学院、理工院、商学院和工学院,这些学院也都是有数据的。
大数据不是单一的,是多学科交叉,其中与医学的合作能切实有效地服务于大众。人们都在谈精准医学,就是对它进行分子级的衡量,这所产生的数据量大,数据的采集和分析工作是非常复杂的。现在有许多手机软件可以记录用户的每天生理数据,通过采集这些数据,用户可以根据每天的数据进行对比,判断自己每天的健康状态。
大数据的生成需要各种仪器,所以物联网、医疗基因测序等得以生成各种数据的仪器设备便风生水起。再如,对大数据这种“资源”进行处理,需要大规模使用计算机,“云计算”、智能终端的重要性得以凸显,它们不仅处理数据,也同时输送数据,继而产生新数据。
如何用好这些数据?通过软件,人们每天都可以了解自己的心跳等数据。但是仅仅知道心跳多少,并没有什么意义。关键在于如何把这些数据变得有用起来,这就需要构造一个个人的生理模型。如果这一模型构造完成,就能代表人们的正常状态,每天可以用数据来比对模型,如果不一致,就能了解到身体处于不正常状态。
步入大数据时代,整个计算机科学的研究重点和使用方法都发生转变——计算机更向“智”的方向发展。这也是为什么类脑计算机、人工智能会从过去的计算机科学的支流变成今天的主流。
大数据人才培养
大学担负着培养人才的重任,近两年来,随着大数据不断升温,国内很多大学和研究机构也都忙着挂牌成立大数据研究机构。
英国帝国理工学院数据科学研究所成立于2014年4月。以数据科学基础为科研方向, 数据科学研究所旨在发展数据科学和大数据背景下最前沿的理论、技术及系统。数据科学研究所为帝国理工的科学家和合作伙伴提供了以数据为驱动的跨学科研究支持, 并同时培养下一代数据科学家。目前,帝国理工数据科学研究院正在快速发展成为英国数据科学的一个重要研究中心,并与全球多所顶尖科研机构以及企业建立了紧密的合作关系。
帝国理工没有设立信息科学的硕士课程,相反,学院将数据科学,融合到每一细分学科,并划分为四个模块,信息科学与数据信息基础、分析与机器学习、大数据编程、规模数据管理。在这个四个模块中,学生可以选择其中三个模块进行学习,等学习完之后,再与另外一个领域科学进行合作的时候,就能成为这一领域的数据科学家。
数据科学如果没有领域科学作为支撑,那么就不会有数据产生,人们也就无从分析。因此,单纯的数据科学是不适合的。只有大数据与领域科学合作,才能真正地为科学创造价值。不然,数据再大,也没有任何意义!
(本文整理自英国帝国理工学院终身教授、上海大学计算机学院院长郭毅可在第四届中国科研信息化发展研讨会上的演讲“ Big Data for Better Science ”)