在新常态下,我国经济面临的形势和任务更加复杂艰巨,政府宏观决策对宏观经济分析的准确性和时效性提出了更高的要求。随着大数据时代的到来,借助大规模数据生产、分享和利用,以崭新的思维和技术去分析,将揭示海量数据背后所隐藏的宏观经济运行模式。
大数据方法和技术不仅可以被深度地应用在微观分析、行业研究领域,也可以运用在宏观决策之中。未来,大数据既是企业占领市场、赢得机遇的利器,也是政府进行宏观调控、国家治理、社会管理的信息基础。而大数据时代对数据的挖掘、处理和分析的方式,对于传统的宏观经济分析,无疑是一次大的革新。
大数据应用于宏观经济分析的趋势
传统的宏观经济分析通常是通过对比主要宏观经济指标、建立宏观经济计量模型、仿真宏观经济动力系统,对宏观经济形势及未来发展趋势进行判断与预测。
在当前的大数据时代,越来越多的宏观经济政策制定者和相关专家学者都已经意识到,大数据对宏观经济分析有着革命性的影响。目前,在宏观经济分析及预测中运用大数据方面,无论是国外还是国内,从新型宏观经济指数构建,到建立新型大数据宏观经济预测模型,各方面都取得了一定的进展。
早期大数据在宏观经济分析领域的应用,主要集中在建立新的宏观经济指数,以便更加准确的反应宏观经济运行状况。这方面的工作主要基于个人的交易记录,包括像一些欧洲国家将销售点扫描数据纳入CPI指数编制。
特别引起关注的是麻省理工学院的经济学家利用网上购物交易数据创建的BBP项目 (Billion Prices Project),基于不断变化的一篮子商品所计算的日度通胀指数。这种实时的通货膨胀指数能够比相应的官方数据更好地反映实际经济运行的情况。当年,在雷曼兄弟公司倒闭后,BPP 的数据显示,大部分美国企业几乎立刻开始削减价格,这就表明总需求已经减弱。而相比之下,官方通胀机构公布的数据直到当年11月,即在10月CPI数据公布后,才对通货紧缩有所反应。
“企业发展工商指数”是宏观经济分析领域中典型的大数据应用案例,也是我国政府在大数据挖掘领域的首创成果。该指数包括10 个对宏观经济具有显著先行性的指标,可以提前1~2 个季度预测宏观经济发展趋势。它改变了传统的抽样统计方式,利用大数据挖掘技术,对工商全量、动态的全国企业登记数据进行分析,发掘大数据价值,并采用合成企业发展工商指数,以判断宏观经济走势。
除了宏观经济分析与预测方面相关指数的建构,从宏观经济分析与预测研究的国际趋势看,使用大数据集,建构监测预测的模型,进行经济预测越来越广泛,逐渐成为很多国家央行进行经济预测的新方法和新工具。
在应用互联网大数据进行经济分析及预测中,使用网络搜索引擎或网络社交媒体记录的关键词,会有数据获取及时、样本统计意义明显等优势,预测精度较高。
Google Trends每天都在产生大量与经济发展相关的查询结果,且这些查询结果与当下的经济活动之间必然存在着不容忽视的关系,或许可以对预测当下的经济活动起到非常重要的作用。并且,在此基础上,Choi H. &. Varian H.(2016)举例说明了如何利用Google Trends预测美国零售业、汽车、住房和旅游的销售情况。
还有相关机构引用专业数据分析软件公司SAS的研究数据,以社交网络活跃度增长作为失业率上升的早期征兆,帮助政府判断就业形势和经济状况,以更好地制定经济政策。在社交网络上,网民们更多地谈论“我的车放在车库已经快两周了”、“我这周只去了一次超市”这些话题时,显示网民可能面临巨大的失业压力;当网民开始讨论“我要出租房屋”、“我准备取消度假”这些话题时,显示出这些网民可能已经失业,面临巨大的生存压力,这些指标是失业后的滞后标志性指标。
样本统计转为总体普查
大数据的发展对于宏观经济分析最为显著的积极影响,莫过于使宏观经济分析从样本统计时代走向总体普查时代。大数据时代的宏观经济分析中,传统的样本假设方式被抛弃,转而以真实的海量数据来进行计算机的自动分析。
我们知道,传统的经济分析包括经济计量分析是建立在抽样统计基础之上的,在传统的抽样统计分析中,往往以假设检验为基本模式,依靠的数据主要是样本,将样本假设为整体,然而,这种分析往往与事实存在或多或少的出入。
与传统宏观经济分析总是局限于小规模样本数据有所不同,在大数据时代,随着信息覆盖范围和数据量迅速提升,数据样本的体量会极大地提高,甚至可以达到样本即总体的程度。例如,就物价而言,每一笔在电子商务网站成交的交易信息都能记录在案。这样的情况下,宏观经济分析的可靠性必然大大加强。
同时,随着信息量的极大拓展和处理信息能力的极大提高,使得宏观经济的分析不再局限于传统的统计分析模式,而是将抽样分析转变为总体分析。这一点对宏观经济分析意义重大,因为宏观经济系统纷繁复杂,如果能将对整体宏观经济变量的分析建立在尽可能多的关于经济主体行为的信息以及其他诸多经济变量的信息的基础上,无疑将会极大地提高宏观经济分析的准确性。
基于推特(Twitter)平台表达的公共情绪用来预测股市变动,是很典型的例子。2008年3月到12月长达九个月间,270万Twitter用户推送的多达970万条的消息,经过情绪评估工具——Opinion Finder 和GPOMS 被分别赋值并评估为“积极”与“消极”两种情绪和“calm(冷静)”、“alert(警觉)”、“ sure(确信)”、“vital(活泼)”、“kind(美好)”、
“happy(高兴)”六种情绪。结果发现,在道琼斯工业平均指数和GPOMS中的“calm(冷静)”情绪之间存在相关性。进一步研究发现,“calm(冷静)”情绪可以很好地预测道琼斯工业平均指数在未来2到6天的涨跌情况,而且这种每日预测的准确率高达到87.6%。
大数据时代,可获得大而全的可得数据,甚至可抛弃原有的假设检验的模式,这些优势是传统经济分析方法无法想象和实现的,无疑将会极大地提高宏观经济分析的准确性和可信度,不仅可以更加准确了解宏观经济形势,还有利于正确做出宏观经济发展的预测,从而更加合理地制定宏观经济政策。
变量个数无限增多
在当前大数据时代,数据的可得性和多样性导致样本量无限增大,同时变量个数无限增多,这有利于应用大量模型进行研究,并应用完备的数据信息,提高预测的准确性。
经济预测模型可以分为两类:一是传统的小模型预测,这类模型往往通过建立时间序列、横截面或面板方程来进行经济分析。传统的小模型预测的特点是仅使用较少的变量,像VAR模型的变量个数通常小于10个。二是大模型预测,这类模型往往使用成百上千个变量,因而大模型预测利用的信息非常丰富。
小模型预测理论比较成熟、方法相对简单。但是,小模型预测有天然的缺陷,那就是变量的完整通常是不可能的,而预测的效果受限于其所使用的变量。
使用小模型进行预测时必须仔细挑选预测变量,然而仁者见仁智者见智,无论是根据理论还是根据经验进行变量的选择,其过程必然会存在差异,其结果也更是可想而知,而且甚至会产生一些争议。比如,基于菲利普斯曲线预测通胀时,有的研究使用失业率作为预测变量,也有研究使用GDP缺口或者产能利用率。
清华大学经济学研究所所长刘涛雄教授就指出,由于模型变量选择、参数设置、估计方法以及滞后期选择等的不同,预测结果会产生很大的偏差。
小模型预测方法这一天然的局限是很难调和的,主要是因为数据样本有限而导致增加很多变量不可行。这使小模型预测的结论往往和经济现实严重脱节。我们很难想象中央银行会仅仅根据少数几个变量进行宏观预测,并据此做出决策。即便是一家企业也不会如此草率。
通过大数据挖掘,可以使得变量大大增加。这就为经济预测从小模型预测转变为大模型预测创造了条件,应用大量模型进行分析及预测,可以应用完备的数据信息,从而提高预测的准确性。
在美国,银行通常依靠FICO得分做出贷款与否的决定,FICO分大概有15-20个变量,诸如信用卡的使用比率、有无未还款的记录等。而一家名为ZestCash的金融机构,在决定是否向客户放贷的时,分析的却是数千个信息线索。ZestCash正是依靠其强大的对于大数据的处理和分析能力,形成了其独特的核心竞争力。
未必因果关系 而是相关关系
传统的经济计量分析以寻找相关事物(变量)的因果关系为核心,而大数据条件下的经济分析通常则着眼于挖掘相关事物(变量)的相关关系。
在复杂的宏观经济系统中,许多经济变量的因果关系往往难以准确检验,或者因果结论经常广受质疑。然而,在如今的大数据时代,更加重视可靠相关关系的发掘,并且充分利用相关关系对于经济预测、经济政策制定与评估的作用,则无疑为宏观经济分析打开了另一片广阔的空间。
在“小数据”时代,宏观经济中的因果关系分析其实并不容易,耗费的精力大、时间多。特别是,要从建立假设开始,进而不断地进行一系列假设的实验,而一个个假设要么被证实,要么被推翻。不过,无论被证实还是被推翻,由于二者都始于假设,这些分析就都有受偏见的可能,所以极易导致错误。
同时,由于计算机能力的不足,在小数据时代,大部分相关事物(变量)关系的分析局限于寻求线性关系。然而,实际上的情况要复杂得多,在现实宏观经济中,总能够发现的是相关事物(变量)的“非线性关系”。
当然,在小数据世界的宏观经济分析中,相关关系也是存在并有价值的;不过,在大数据时代的宏观经济分析中,相关关系才将大放异彩。维克托·迈尔-舍恩伯格与肯尼思·库克耶(Victor•Mayer-Schonberger &. Kenneth•Cukier)认为,建立在相关关系分析基础上的预测是大数据的核心。通过应用相关关系,可以比之前更容易、更快捷、更清楚地分析事物(变量)。
英国华威商学院为预测股市的涨跌,使用谷歌趋势(Google Trends)共计追踪了98个搜索关键词。这中包括“债务”、“股票”、“投资组合”、“失业”、“市场”等与投资行为相关的词,也包括“生活方式”、“艺术”、“快乐”、“战争”、“冲突”、“政治”等与投资无关的关键词。结果发现有些词条,诸如“债务”,成为预测股市的主要关键词。
“谷歌流感趋势”为预测季节性流感的暴发,对2003年和2008年间的5000万最常搜索的词条进行大数据“训练”,试图发现某些搜索词条的地理位置是否与美国流感疾病预防和控制中心的数据相关。
谷歌并没有直接推断哪些查询词条是最好的指标,相反,为了测试这些检索词条,谷歌总共处理了4.5亿个不同的数字模型。将得出的预测与2007年和2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,它们的大数据处理结果发现了45条检索词条的组合,将它们用于特定的数学模型,预测结果与官方数据的相关性高达97%。
在大数据时代来临之前,尽管相关关系已被充分证明大有用途,可是相关关系的应用很少。这是因为用来做相关关系分析的数据同用来做因果关系分析的数据一样,也很少,也不容易得到,并且收集有关的数据,在过去相对来说,也费时费力,也会耗资巨大。不过现如今,可用的数据如此之多,也就不存在这样的难题了。特别是现在,有关专家们正在研发能发现并对比分析“非线性关系”的必要工具。总之,一系列飞速发展的新技术和新软件从多方面提高了有关分析工具发现宏观经济变量相关关系的能力,这就好比立体画法可同时从多个角度来表现人物或事物。
在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,使我们看到了很多以前不曾注意到的宏观经济中的联系,掌握了以前无法理解的复杂的国民经济动态。
时滞变即期
目前对宏观经济的分析研究所采用的资料,主要依赖于各种统计调查系统发布的统计数据,但面临的最明显的缺陷之一便在于关于宏观经济统计的数据具有很强的时滞性。而大数据经济模型可以充分利用数据的实时性,提高分析或预测的时效性,为经济预警和政策制定提供最快速的资料和依据。
一般来说,依赖统计部门的宏观经济数据的发布都存在时间滞后的问题。由于不能及时获取宏观经济发展的数据信息,也就不能对当下的宏观经济形势作出准确判断。例如,政府公布的季度GDP 往往会有1个月的滞后期,而反映全面经济社会状况的统计年鉴的滞后期会达到3个月左右,这对及时了解宏观经济形势、预测与预警都是非常不利的,基于此统计进行的预测甚至被认为助长了宏观经济波动。
在互联网技术的辅助下相关宏观经济的分析部门能够快速地收集到主要宏观经济发展数据,如全社会的用电量、全社会的商品销售总额以及商品房的购买量等。这些大数据的获取时间较短,有的数据甚至是立即可以获得。
而随着互联网尤其是移动互联网的发展,产生了大量的即时传播数据,如企业通过微博、微信第一时间发布产品、人事等重要信息; 普通用户实时针对特定事件或对象发表见解和态度,等等。
这些即时传播的非结构化数据对宏观经济的走势也产生了重要影响。通过大数据软件处理平台,可以实时追踪和搜集这些即时数据,并快速对数据进行分析和处理,从而提高宏观经济的时效性,为经济活动参与者赢得决策时间。
在日本北九州市八幡东区东田地区实行的“八幡东区绿色乡村构想”中,日本IBM公司除了设立城市整体能源管理系统、综合性移动管理系统外,还参与了控制整个城市的城市指挥中心建设。得益于该公司处理和分析大数据的高效工作,当地行政机关可以实时掌握城市能源的情况,并将分析的结果同气象信息结合,详细预测48小时之后电力等能源的供需状况。如果发现将有电力不足的情况发生,行政部门可直接采取抑制电力消费或让电动汽车释放电能等措施,提前进行预防。
近来,在利用大数据对宏观经济进行预测方面,“现时预测(Now Casting)”受到特别关注。“现时预测”一词最初起源于气象学领域,是对现在已经发生的事由于信息发布滞后等原因难以马上知道准确情况,因而根据其他可得信息进行推测。
目前“现时预测”的主要应用范围为预测通胀指数、GDP,基础信息可以为消费数据,如私人消费,或其他与产出相关的变量,如工业产出。“现时预测”基本原理是充分挖掘比目标变量频率更高的历史基础信息,以在官方数据公布前获得目标变量的提前估计量,这对政府了解宏观经济情况制定经济政策有很大的作用。