建筑业是数据量最大、业务规模最大的大数据行业,但同样是当前数据管理最落后的行业。客观地说,建筑业信息化、大数据始终难发展起来,与这一行业的本质也有较大关系。建筑业生产的复杂性,导致互联网充分应用、大数据成为生产力的技术难度十分巨大。我国建筑行业已经针对施工建造行为、物项实现了集成管理,并积累了海量数据。目前很多企业开展了大数据咨询项目,旨在根据业务现状制定出切实可行的大数据平台方案,将新时代的科技成果与企业的业务相结合,实现数据挖掘和分析利用,充分发挥出建筑数据的价值。
(一)技术标准的制定与优化的现状
通过长期的建设实践,我国建筑施工行业正在建立健全标准体系。
然而,在大数据时代下,行业标准体系、企业标准体系建设仍然有很大的改进空间。一方面源于对该项工作的认识程度所限,另一方面传统定额测定方法费力、耗时。基于经验数据、现场测定、工作视频等,结合大数据的理念,针对特定群体、特定组织文化,有可能实现工效的真实反映乃至于实时反映。
(二)现场施工的技术服务保障中大数据的应用前瞻
相比于国外先进的建筑业企业,我国最优秀的技术力量、最富经验的技术人才大部分沉淀在项目上,图纸及规格书以外的广义数据、处理质量事故的经验数据也都分散于项目之中,并随着项目任务的结束而逐渐消散。
建造施工必须采用精细化管理方式,专业分工程度非常高,这种结构已经为数据的积累提供了天然的基础。通过分析这些数据,我们可以找到质量缺陷的共模因素,通过适当的统计分析我们也可以找出影响质量稳定性的关键因素。甚至可以通过移动终端的APP应用,即时指导现场的施工作业。
在高质量的完成工作任务,需要进一步挖潜大数据资源,发现并盘活信息资产,重新定义并持续打造企业的核心竞争力。
(三)安全文化行为大数据应用前瞻
我国建筑施工行业拥有几十万人的从业大军。这些从业人员每人每天都与互联网发生关系,在互联网上存储了大量的公开信息。此外,通过一定途径可以掌握从业人员的教育背景、成长环境、心理素质、驾驶习惯、规则的遵守情况、无人监督下的公德行为、即时通讯工具的信息统计等等广义数据。这些数据通过计算机完成定量转化,并结合有关案例进行相关性分析后,有可能揭示质量事故偶然性与必然性之间的联系,可以用于实时评价个体的行为趋势,进而做出预测和判断。
未来,有必要建立企业核心竞争力的直观化、可视化评价体系,便于自我评价和改进,进而提高客户的满意度,最终提升客户的忠诚度。
二、建筑施工领域数据特点
客观地说,建筑施工领域信息化发展缓慢,与行业的本质有较大关系。建筑施工领域生产的特殊性与复杂性,导致其进行信息化改造的技术、制度难度十分巨大。其数据存在以下特点:
首先,数据维度比较复杂,数据结构多样,简单来看,既有建筑类数据,如建筑造价类数据、建筑结构类数据、建筑施工工艺类数据、建筑材料类数据,也有管理类数据,并且不同数据的形态也不尽相同。
其次,行业链条多,参建方多,数据资源分散在不同单位手中,数据资源的整合存在一定困难。例如,管理类数据包括人力资源数据、财务数据、质量数据、安全数据、项目数据等等,由于关注点及颗粒度的不同,以月报等类型分散在从总部到各成员单位以及项目部的各个层面。而对于业务类数据来说,主要的设计数据都存在于业主或设计单位,大量的甲供物资采购信息及供应商信息也都在业主手中。
再次,随着建筑信息化建设的升级,其施工管理系统历经了几代发展,各系统之间的数据继承性较差。另外,还有大量的技术性文件以CAD、纸质文档等方式分散于各单位。
最后,随着信息化技术的发展,“十三五”期间,移动互联、物联网等新技术逐步应用于建筑施工领域,由此带来了数据量的爆发式增长,也为建筑施工领域数据的管理带来新的考验。
三、建筑施工领域数据初步质量分析
本文对信息系统涉及的施工项目管理数据进行质量分析,为建筑施工领域大数据平台的设计提供参考,同时为集团数据质量标准的进一步完善提供依据。
(一)数据质量概念
数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。
1. 完整性
完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。
2. 一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。逻辑指的是,多项数据间存在着固定的逻辑关系。
3. 准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
4. 及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
(二)分析方法介绍
本文使用RapidMinerStudio免费版进行建筑施工数据质量的分析。
1. 分析工具使用方法
下图为RapidMiner的主界面。
图1 RapidMiner主界面下图为RapidMiner的数据加载界面,本课题将通过系统组装之后的数据导出为CVS文件,通过本地文件加载的方式导入到RapidMiner中。
图2 数据加载数据加载完成之后,通过拖动的方式,将需要分析的数据源置入流程中,并选择符合要求的处理算子,本课题选择filter算子,将算子也拖入流程中,如下图所示。
图3 选择处理算子选择算子之后,需要对算子的参数进行设置,filter算子可以过滤出符合字段要求的数据。
图4 算子参数设置算子参数设置完毕之后,点击菜单栏的运行按钮,下图为运行结果。
图5处理结果展示运算结果也可以通过可视化的方式进行展示,如图6所示。
2. 分析过程与结果
图6 运算结果可视化1)数据来源对目前建筑施工管理系统的各类数据进行质量分析,本次分析选取其中的关键数据进行分析,如下表所示。
(三) 数据质量分析
基于数据质量的定义,利用分析软件及人工检查的方式做以下项目的检测:
空值:数据值域为空的数据
唯一性:数据本应唯一,但却重复出现的数据
1. was拆分数据分析
根据上述指标项定义,was拆分数据存在如下问题:
存在某些指标项实际录入时漏录或不录的数据;
存在全部为空的字段;
存在重复记录。
5. 预计数据管理分析
根据上述指标项定义,预计数据管理数据存在如下问题:
存在某些指标项实际录入时漏录或不录的数据;存在未填充数据的字段。
四、结论及建议
(一)结论
通过以上的数据质量分析,结合人工检查中发现的问题,可得到如下结论:
系统开发人员离职造成数据文档丢失,很多数据库表及字段的定义、数据规则丢失,给数据理解带来很大不便;
某些业务功能对应的数据库表字段结构改变,从业务软件组装、导出数据时出错;
数据漏录或不录的情况普遍;
存在重复保存的数据;
某些字段的默认数据设置规则不一致,如有的日期字段默认为“0000-00-00”,有的则为空;
存在大量字段为空的情况,有的表中的某些字段全部为空;
数据录入规范不一致,例如有的人员姓名字段为汉字,有的为汉字拼音。修改状态字段,有的为汉字,有的为数字,有的则为英文编码。
(二) 建议
数据质量问题贯穿于项目的整个生命周期,对企业的实际生产运行影响巨大,结合以上发现的问题,建筑施工领域信息化管理中的数据质量控制要从技术、流程和管理三个方面进行:
从技术层面上,建筑建设管理信息系统存在噪音数据、遗漏数据和不一致性数据,需要进行数据清洗,同时需要对源数据做稽核。
在流程层面上,对于源数据的抽取要遵从一定的业务规则,数据的抽取和转换需要很多步骤来完成,这就需要将过程流程化,并且流程可通过配置来实现。
在管理层面上,要求生产系统报送数据,按照“谁提供数据,谁负责”的原则由生产系统保证源数据的完整性、准确性、一致性、时效性。
作者单位:北京中核华辉科技发展有限公司