2017年我国国民生产总值已经达到82.7万亿的惊人数字,我国庞大的经济规模,单靠人脑理解分析已经不能够满足越来越大的经济统计需求,数据挖掘技术应用于经济统计,已经成为了当前经济统计工作的新宠。本文基于数据挖掘技术用于经济统计的角度,探讨其运用的有效措施。希望对读者提供有益参考。
关键词
经济统计;数据挖掘技术;统计方法
数据挖掘技术是一种新型统计技术,其优点是能够对数据进行纵向开发和利用,精简数据的经济量,并在数据的基础上通过数据挖掘分析得出更有用的信息,从而更好地服务经济统计工作。
经济数据预先处理法
经济数据预先处理法分为均值法、平滑法。其中,均值法是模糊分析的一种应用形式,在遇到数据点空值或噪音数据干扰的情况下,可以采用均值法进行处理,以元数据的均值来填补数据清除的空缺。采用均值法能够让数据挖掘技术在使用过程中,能够避免错误数据对其数据分析和整理的干扰,从而得出更高准确度的经济数据。
而平滑法与均值法的应用方法类似,但是前者主要用加权平均数代替平均数,它主要考虑了各个数据对总数据的权重影响,平滑法的优点是计算更加接近真实数值。
决策树方法
经济信息数据输出是数据挖掘的关键环节,其输出形式对经济管理决策产生直接影响。决策树是一种信息的快速分类方法,通过它能帮助决策者精准把握需要注意的问题,提高决策质量。为了方便论述,以决策树方法将各类企业按照经济数据差别率多寡进行分类,差别率大于20%的归为甲类,差别率在10~20%之间的归为乙类,差别率在10%以下的归为丙类。根据这样的差别率变化区间来设定决策树规则,各个企业的经济数据差别率如表1所示。
需要注意的是,表1的数据是为了辅助说明决策树的运作流程而编造,数据本真不具有真实性,仅供学习参考。通过以上表格,可以看出A类企业的经营数据与预测值的差别率相当大,明显违背数据规律,根据决策树防范可将其归为虚假数据。经济管理部门可根据此数据的真实性,着重对A类企业进行的调查。
回归分析法
这种方法的分析方式为将两种或两种以上的变量相依赖的定量关系进行统计分析,通过分析研究对象各个变量然后建立起回归方程,以此判别主要变量与次要变量的关系,并通过检验预测各变量之间的误差。这样的回归方程公式可以可以对市场占有率、销售额进行解释。例如,可使用此线性回归方程:Y=a+bX表示,其中a为截距、b则是相关系数。
回归分析法的应用条件为:1、各个经济统计对象是相互独立的;2、Logistic与自变量之间的关系为线性关系;3、设计队列、横断面对照研究时,观察时间与Logistic回归分析时间相同;4、对于样本量较小的分析对象,要确保其分析变量控制在一定的数值范围内,同时分析对象的变量分类不能过多。
应用Logistic分析,可以预测变量X与变量Y之间关系假定S状的事件发生几率。通过分析发现自变量较小的情况下几率值接近于0,但随着自变量增加,其几率值会跟着增加,使斜率介于0~1之间。
遗传算法
这种算法具有生物遗传机理与自然选择的特征,具有随机搜索功能的一种算法。它的计算流程为:采集相关信息→归类已采集信息→分析信息→得出结果。这种算法特别适用于经济统计,因为经济数据并非一成不变,使得经济数据内各项信息和数据互相关联、影响。
利用遗传算法,可以从经济数据的根源进行数据搜集,并在搜集信息的基础上进行分析,使经济统计的目标更清晰,将数据隐含信息表达出来,呈现的经济统计结果更加直白。
神经网络法
工作机制与人的神经运动过程一样,具体表现为,数据输入→数据精准分析→数据输出。这种算法在经济统计工作中较为常用,通过它能使统计结果更具实用性,数据输出格式也更形象化、具体化,兼顾到经济过程各部分的联系,从而得出解决经济统计问题的方法。
结论
综合上述,借助数据挖掘技术,有利于精简无效、冗余信息的经济量,使经济统计结果更准确、更实用。利用数据挖掘技术的以下方法:经济数据预先处理法、决策树方法,回归分析法、遗传算法、神经网络法能够实现更好的经济信息数据统计、分析和处理效果。
参考文献:
[1]万金.数据挖掘技术对民营经济统计数据质量的提升作用分析[J].科技经济市场,2018(02):18-20.
作者简介:
周杰(1993年-),女,重庆人,硕士,云南大学,研究方向:概率论与数理统计