徐宗本 中国科学院院士发展大数据具有迫切性
信息时代的教育是要在充分了解学生认知能力和知识结构的前提下,提供符合学生认知规律和培养目标的优质教育,帮助其领悟学习的愉悦并养成通过学习解决问题的习惯。
未来“感知”这个词将成为教育的关键词。通过智能的感知,使得学习者对所处的环境和所要学习的对象进行更多信息的获取,而在感知的过程中,数据是最核心的部分。
如何对待和认识数据?首先要理性看待数据。数据是以编码形式存在的信息载体,是资料的数字化形式,大数据是大而复杂的数据集,具有海量性、时变性、异构性、分布性等特征。
当反映真实世界的数据(碎片)量己达到可以从一定程度上反映其真实面貌的程度,随着信息获取的发展,数据在积累过程中从量变发展到质变。量变是指数据量增加,质变是指量增加到了一定时刻使得人们通过数据的片断就能大体判断它背后的故事。
大数据泛指一个时代、一项技术、一种文化、一个挑战,通常用四句话概括:拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇;能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高新技术;任何人都要以数据说话;现有的数据采集、传输、存储、处理与分析技术己无法适用于现有的需要。
大数据的价值有四个方面值得大家关注。第一,提供社会科学的方法论:实现基于数据的决策,支持管理科学与实践的革命;第二,提供科学研究的新范式:支持基于数据的科学发现;第三,形成高新科技的新领域:推动行业深化发展并形成大数据产业;第四,形成社会进步的新引擎:深刻改变人们的思维、生产、生活方式,推动社会进步。
发展大数据具有迫切性与极端重要性。大数据技术是解决众多国家重大需求问题的共性基础,必将成为重构社会和经济的基本生产资料和生产力(底层架构和标配),它是国家创新驱动发展的核心驱动力。
大数据面临的四个发展机遇
当前大数据为全球提供了几个重要的机遇。一是管理创新机遇。管理问题难以有普适方法论,决策问题难以精确建模分析,大数据认识论与方法论为管理与决策科学研究与实践提供了历史性机遇。管理包括市场分析与精准营销、舆情分析(社会、商业等)、政策分析与评估、金融风险分析和监控、工业系统智能控制、公共安全监控与治理、产业与经济形势评估等方面,这些都需要用到大数据。
二是产业发展机遇。
人们都希望能够弯道超车,实现中华民族崛起,但是中国的优势到底在哪里?中国的优势就是市场大、人口多,铸就了大数据资源优势,带来弯道超车的可能性;为产业的不断升级、形成新价值、新产业提供无限可能性。
三是科学研究机遇。
现在的科学研究完全突破了过去的方式,甚至包括高等物理研究的方式都和以往不同了。现在,数据收集、处理与分析能力的提升,将显著提升人们对客观世界的洞察的深度和可程序化探究问题的广度,帮助人们发现新知识,创造新价值,形成新理念。
四是学科发展机遇。
大数据摧生了数据科学,数据科学与人文社会科学、管理科学等学科的深度交叉与融合,将彻底打破和革新学科领域;“解读大数据是时代任务”的要求将深刻改变和影响所有学科,这一改变将对大学的学科设置和人才培养产生重大影响,为大学培养适应国家创新发展所需要的人才提供机遇。未来大数据的时代,文科与理工应当需要跨领域交叉的。
大数据的几个挑战
传统的统计方法已经不适应于当前的情况了。在传统统计方法中,以样本趋于无穷的极限分布为基础进行推断,而大数据分析方法需要自然数据,依靠数据量和超强的计算能力直接进行分析。
如何科学应对挑战?核心挑战在哪里?
首先,是传统方法的失效。传统的统计方法是抽样数据,以样本趋于无穷的极限分布为基础。而预期的大数据方法则是要通过自然数据,直接分析,依靠数据+超常的计算能力推断。
其次,是认识论上的困惑。样本等于母体吗?相关性能替代因果性吗?查询能替代推断吗?大数据可代替理论吗?种种与过去完全不同的认识冲击着我们。
第三,方法论上的冲击。分析基础被破坏,计算模式受拷问,处理算法不可用,真伪更难以判定,决策应用缺乏基础。
因此, 针对大数据的研究有如下挑战:
第一,重建分析基础。包括重建统计学基础和计算理论。在大数据分析与处理的统计学与计算基础方面取得突破性进展,建立起若干新的理论,推动形成数据科学的基础理论体系。
第二,革新计算技术。创新计算技术,包括创新计算模式和计算方法。在环境上,从单一结构(CPU,MIC)向混合结构(CPU+GPU+MIC共存协作计算)转变;大数据到来之后,既要计算密集型,也要数据密集型,从传统并行转为分布式并行。提出适应异构计算环境下多粒度分布并行计算模式的系列高效算法(大数据算法),形成大数据处理与分析的领先核心技术。
第三,建立真伪性判定准则,其目标是在国家重大需求的若干典型领域,形成大数据分析与处理的行业核心技术,促进相应领域新模式的形成,推动各行各业利用大数据的能力与水平。
面临的产业问题
当前的大数据的10个重大科学问题:区块链技术、互操作技术、存算一体的存储管理技术、大数据操作系统、大数据编程语言与执行环境、大数据基础算法、大数据机器学习技术、大数据智能技术、可视化与人机交互分析技术、真伪判定技术。
大数据当前面临的几个问题,主要包括如下几个方面。第一,产业链缺乏完整性。第二,地方政府实践路径不清晰,对需求的认知模糊,导致对大数据的推进不利。对大数据的实践一定不能盲目和盲从,一定要弄清楚要用大数据做什么。第三,数据的开放与共享。教育大数据是一个非常值得期待的领域,大数据的核心是利用信息对业务的内涵和服务进行革新。
因此,围绕此话题,提出几点建议:第一,一定要做好教育大数据的规划。如建好教育大数据的统一平台做好统一管理;第二,关注基础开发和共性技术,做好人才培养;第三,做好应用示范,以点带面推动发展。
(本文根据中国科学院院士徐宗本在“人工智能与未来教育”科技前沿与战略圆桌会议上的部分报告内容整理,未经本人确认。整理:王左利、杨洁)