大数据的发展和现状
全球大数据发展历程
国际层面,大数据在2012和2013年达到宣传高潮,2014年后概念逐渐成熟,对大数据的认识也趋于理性。我国大数据已经成为国家战略,相关技术成为研发热点,大数据应用市场呈现繁荣状态。
2012年,大数据产业生态预热。 同年7月,美国风险投资人Matt Turck 开始绘制大数据产业图谱1.0版本,10月,更新并发布大数据产业图谱2.0版本。Matt Turck将大数据产业链分为Infrastructure (基础设施)、Analytics (分析)、Applications (应用)、Cross infrastructure/Analytics (基跨础设施/分析)、Open Source(技术开源)、Data Resources( 数据资源)六个方面描述。
2014年发布了新的版本,这时大数据分析就成为了生态系统中最火热的部分。有大批的公司成立并快速发展,风险投资大量涌入,这时大数据生态系统还处于一个初级阶段。
2016年,大数据产业已现雏形,主要表现在:创新不断,并且大部分通过开源体现;数据与AI紧密结合,相辅相成;大数据应用增长迅猛,面向行业和领域的应用型企业发展迅猛,生态系统逐步形成,向更为成熟的程度发展。
2017年,大数据产业生态不断完善。数据治理、数据安全成为重点,大数据成功需要技术、人员、过程的紧密结合,大数据在AI技术的助力下,在各个领域发展迅猛。这一年,生态系统发展全速推进。
从全球大数据市场规模现状来看,据IDC报告显示,2014年全球大数据市场规模是285亿美元,同比增长53.2%;2015年,达到384亿美元,同比增长34.7%;2017年市场规模达到721亿美元。2017~2021年,行业的年均复合增长率在40.98%,2021年,全球大数据规模将会达到2847亿美元。同时,2020年以前全球数据量将保持每两年就翻一倍的速度增长,预计2020年全球数据量将达44ZB。在《DATA Age2025》报告中,预计2020年全球的数据量要超过50ZB左右,2025年全球数据量将达到160ZB。由此可见,全球数据量的增长速度超出人们预期。
我国大数据生态状况
2015年,我国大数据生态系统日臻完善。基础技术和系统方面缺乏原创,分析方法与算法应用牵引不足,研究实用性和易用性偏弱,互联网大数据的应用水平和效果接近国际先进水平,其他行业和企业的大数据应用水平和效果较落后。
2016年,大数据建设领域仍被国际厂商占据,基于物联网的数据采集与数据管理初现,各内容类互联网服务竞相成为数据源,垂直化与行业化应用发展迅猛。我国互联网大数据应用水平和效果接近国际先进水平,并积累了大量的数据,数据的收集与管理,已经成为我国大数据产业发展的重要与关键环节。
从国家总量来看,2015年,中国大数据市场规模达到115.9亿元,同比增长38%;2016年是168亿元,同比增长45%;预计2018年会达到280亿元,未来五年(2018~2022)年均复合增长率约为27.29%,2022年将达到735亿元。2020年,中国数据量将达到8060EB,占全球数据量的18%。
从国际、国内大数据技术与产业发展的状况来看,大数据作为战略资源的地位越来越重要,数据管理、数据安全与隐私保护、数据共享开放机制等数据治理相关技术成为当前研究热点。建立完善的数据治理体系成为一项紧迫的任务。
大数据治理体系的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面,当前相应的技术研究关联性和系统性还存在欠缺。大数据治理体系
治理本身源自于拉丁文的“掌舵”一词,指政府控制、引导和操纵的行动或方式。它是一个采取联合行动的过程,强调协调而不是控制。
大数据治理可以从宏观、中观、微观三个层面来阐述。从宏观层来看,大数据治理是对组织的大数据管理和利用进行评估、指导和监督的体系架构;从中观层来看,大数据治理是企业数据可获得性、可用性、完整性和安全性的部署和全面管理;从微观层来看,大数据治理是描述数据该如何在其全生命周期内有用和经济管理的组织策略或程序。
大数据治理研究主要集中在组织层面,而在治理体系上还有待完善,主要表现在:
第一,大数据的治理体系应该涉及组织、行业、国家多个层次,如何定义、构建一个完整的体系值得思考。
第二,大数据治理体系需要健全的法律法规、全面的标准体系支撑,是否需要围绕“数据”为主题来制定制度法规和标准规范。
第三,大数据治理的重要性已得到较为广泛的认识,已有不少成功的应用实践,但尚不足支撑一些共识的形成,难以形成“规范”。
第四,大数据治理体系的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面,当前相应的技术研究关联性和系统性还存在欠缺。
第五,大数据资产地位得到广泛认同,但是如果没有有效的管理和应用,这种数据实际上会成为负担。
第六,大数据管理的相关方法与技术已有不少成熟产品与技术,但还缺乏完善的多层级的管理体制和高效的管理机制。
第七,大数据共享与开放已经成大数据成功应用的关键,如何将技术和标准有机结合,建立在不同层级上的良好的大数据共享与开放环境也是值得思考的。
第八,大数据安全与隐私保护意识不断加强,除了相关技术需要不断发展以应对各种新型攻击挑战外,企业安全保障制度完善和行业自律监管力度加强也需要重点关注。
大数据治理体系从国家层面看,主要包括以下四个方面:一是资产地位确立,需要在国家法律法规层面明确数据资产地位;二是管理体制机制,需要建设良好的管控协调机制,促进数据产业的健康发展;三是共享和开放,需要制定数据开放共享的政策,建设政府主导的数据共享平台;四是安全与隐私保护,需要出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。
在数据资产的确立上,明确将数据作为资产,就可以将数据的归属、估值、交易、管理等纳入到人类社会的一般资产管理体系中,对于促进数据的确权、流通、交易、保护等具有重要的基础性意义。
在管理体制机制上,良好的数据管理体制不仅能促进产业的健康发展,也为国家掌握数据安全、维护用户权益提供有力抓手。当前有两种主要管理模式:一种是以欧盟为代表的政府设立专门机构直接管理,另一种是以美国为代表的政府引导行业自律的管理。对中国而言,我们应该借鉴已有模式,兼顾现状及发展,建立符合我国国情的体系。
在数据共享和开放上,大数据应用之所以产生巨大价值,往往在于有效关联,融合了多个已有信息系统中的数据,并创造性地解决新问题。
在安全与隐私保护上,大规模的数据泄露以及数据监听、窃取事件所引发的数据安全、隐私保护等问题已经严重影响到了社会安全和国家安全。世界主要国家和地区多措并举加强大数据安全保障。
总体而言,大数据治理体系建设是国家实施大数据战略的重要保证,是发挥大数据作用、做大做强大数据产业的重要因素。大数据治理体系建设已经成为大数据发展重点,分层次、多维度推进大数据治理体系的建设,任重而道远。 (责编:杨洁)
(本文根据中国科学院院士、北京理工大学副校长梅宏在第十三届中国电子信息技术年会上的部分演讲内容整理,未经本人审阅。整理:杨洁)