杂志汇新经济导刊

旅游业研究的大数据支持

作者:编译/喻予
在旅游研究方面,大数据技术正在被广泛应用,可以通过搜索量预测游客数量,还可以通过网络评议审视旅馆酒店的服务水平

互联网的普及带来了一系列新的活动,改变了我们进行传统活动的方式。我们越来越多地在网上阅读新闻,在看医生之前和之后在网上查找医疗信息,在线购买产品和服务(书籍、音乐、机票等),参与社交网络,与银行和政府合作,撰写电子邮件,打电话和在线看电视。这无数的活动在网上留下痕迹,产生了大量关于购买意图、投票意图、产品、人员、机构等的信息。在旅游研究方面,大数据技术正在被广泛应用,特别是在通过搜索量预测游客数量方面。同时,如今意见数据不时在网上生成,并以各种形式呈现,如客户评论、推特和博客。这些意见数据揭示了消费者的主要需求。在市场驱动的产品设计中,特别是在有竞争力的产品存在的情况下,从大的消费者意见数据中推广满足顾客需求的产品和服务的能力起着重要的作用。对于旅游业来讲,当然也可以通过这些网络评议审视旅馆酒店的服务水平。

大数据时代的旅游业分析

利用谷歌趋势预测经济变量的开创性论文主要侧重于关注失业申领的预测。在Choi和Varian展示了如何使用搜索来预测有关前往香港的旅行之后,诸如此类的一些其它的研究也开始集中于其他旅游目的地。Artola和Galan等研究人员关注了英国游客流入西班牙的情况,Matsumoto等研究人员分析了日本的旅游消费。

欧盟统计局(Eurostat)和欧盟委员会(European Commission)曾经发布过相关的调查报告,提供了支持使用互联网查询数据研究旅游业流入情况的证据。根据有关对于家庭及个人使用信息和通信技术之情况的调查,39%的欧元区居民从事与旅游相关的在线活动,22%的人在线购买此类服务。那么差距便为17个百分点,这种差异的大小因国而异,尽管这两项统计数据提供了类似的信息:它们之间的相关性为0.903。造成差异的原因多种多样:互联网普及率、消费者在购买时对网络安全的信任不足、在欧洲市场运营的公司的在线销售发展水平较低。很值得一提的是,西班牙是世界上最主要的旅游目的地之一,也是世界上最依赖旅游业的国家之一。在西班牙游客流量最大的三个国家(英国、法国和德国),与旅游活动有关的互联网使用率高于欧元区平均水平。

在关于旅游业发展分析方面,西班牙银行、西班牙萨拉曼大学及荷兰阿姆斯特丹大学有关专家学者构建了一个基于互联网上个人搜索的指标。其想法是:在规划假期时,人们会经常使用互联网以搜寻关于他们的目的地(航班、酒店、便利设施、天气等) 的信息。这些搜索可以为实际行程提供一个有价值的先导指标。

当前,随着互联网使用的扩大,在电子商务网站上发现的评论对消费者的购买决定有更大的影响。旅馆酒店行业也是如此。这些网站的一个流行做法是对产品的预定义方面提供评级,从而使用户能够获得重要信息的摘要。这种方法的一个限制是,对于网站未预先定义的产品的某些方面,无法获得评级和摘要信息。

针对这一弱点,台湾地区有关专家学者提出了一种新的方法,允许用户指定他感兴趣的产品方面,从而系统根据这些特定方面自动对所有在线评论进行分类和评级。值得注意的是,拟议的方法还可以帮助企业查明对用户重要的问题,否则这些问题就会被隐藏起来。了解他们的关切,可作为改善内部环境和实施服务创新的参考,从而提高客户满意度和竞争力。

通过对几个酒店评论数据集的分析,可以确定目标酒店的以下信息:(1)用户指定的对酒店各个方面的正面、中立性和负面评论的百分比;(2)用户指定方面的平均评级;(3)根据特定方面对评论进行分类。

与目前的网站实践相比,这样的方法具有以下优点:(1)此方法的功能是兼容的,并且可以安装在当前的电子商务网站上,以改进服务;(2)用户可以根据自己的兴趣获取信息的摘要;(3)相关分析使用户能够轻松地看到相似的观点组。

商业数据分析的迅速发展使客户期望的不仅仅是准确的信息;他们期望以准确和符合其需要的信息形式提供更好的服务。为什么定制或个性化信息很重要?学者Thirualai和Sinhab表示,提供选择帮助的决策定制与客户满意度正相关。还有学者表示,内容相关性、自我参照和目标特异性以多种方式影响网络用户的注意力、认知过程和决定。换句话说,用户可以接受个性化的内容,并发现它有助于决策。虽然传统的评议功能是有用的,但当用户的兴趣不在网站预先定义的产品方面时,它们就会失败。

从搜索看客流

鉴于旅游业在经常账户“食谱”中的核心作用,向前迈出的一步应包括收集适当的关键词,以确定哪些是潜在旅行者感兴趣的主要部分:即,在寻找与西班牙度假有关的搜索术语时,可能包括与低水平支出相关的术语(如野营、廉价等),或者相反,它们可能会包括与较高支出水平相关的关键词(如高尔夫、帆船、天堂)。这一框架可补充对游客流入的预测,并最终有助于预测旅游支出。此外,大数据的未来研究和成功将在很大程度上取决于研究人员更深入地获取数据,以及大数据作为传统数据的补充而不是替代的观点。

西班牙及荷兰有关专家学者构建了一个基于互联网上个人搜索的指标。在规划假期时,人们会经常使用互联网以搜寻关于他们的目的地(航班、酒店、便利设施、天气等) 的信息。这些搜索可以为实际行程提供一个有价值的先导指标。

在这项研究中,他们建议利用个人在计划其假期时大量使用网络搜索这一事实,同时,利用谷歌(Google) 提供的这些搜索趋势的信息,来预测度假目的地的实际旅行者数量。

有两点需要注意。首先,出于旅游目的而进行旅游在线搜索的人数仅占旅行者人数的一小部分,而在这些人群中,年轻人和受教育程度较高的人群比例可能过高。

其次,Google趋势提供的“搜索强度”指标只显示在某一地理区域和时间段内关键词或短语相对于总搜索量的搜索量。某一特定关键字的索引值下降并不一定意味着对该特定关键字的绝对搜索量下降了;如果它的增加量小于该特定位置和时间段的总搜索量,那么就足够了。

相关专家学者获得了一个查询索引,该索引是关于上述三个向西班牙提供最大游客流量的国家——英、法、德,对于前往西班牙度假的相对兴趣。所使用的关键词 “SpainHoliday”,着重于体现源自英国的搜索;“Vacance Espane”,用于表示源自法国的搜索;“Spanien Urlab”,用于描述源自德国的搜索。为了进一步检查这一方法的稳健性,相关学者们在“旅行”类别下获得了“Spanien”(用于源自德国的搜索)、“Spain”(用于源自英国的搜索)和“埃斯帕涅”(针对源自法国的搜索)的查询索引。

对于这三个国家中的每一个,将实际的游客流入量与GoogleTrend提供的查询索引进行比较。Google索引为每周提供一次,并取平均值以获得月度的系列。当一个星期在两个月之间重叠时,它被分配给工作天数最多的月份。游客流入的时间序列由旅游研究所(“Instituto de Estudio Turisticos”)每月出版,该研究所编制月度调查(“Movimientos turisticos en Fronteras”),向游客抽样询问其居住国和旅行目的,从而能够确定每月游客人数和原籍国。

将来自每个国家的游客流入量与相应的Google查询索引进行比较。两个旅游系列的模式并没有很大的不同,部分原因是旅游系列的季节性很强,夏季的游客流入最多。还需要注意的是,互联网搜索可以在一定程度上引导游客流入。

相关研究认为,纳入一项基于在线搜索的指标,改善了对2012年之前游客流入的短期预测——样本均方误差减少了42%——表明在线搜索中有价值的信息可以改进分析师使用的常规统计数据。然而,在接下来的几年里,相关的模型的性能会恶化。

这不禁让人想起以前成功地使用谷歌搜索词来识别流感爆发的过程(金斯贝格塔尔,2009年),但在随后的几年里失败了。从2009年开始,谷歌流感趋势(GFT)一直在过度预测流感。Butler(2013年)报告说,GFT趋势预测,类似流感的疾病就诊比例将增加一倍以上。

实践证实,谷歌趋势现在可能会提供好的结果,但索引和使用可以迅速改变,算法会定期改变,用户基础可能会根据政策或任何其他原因转移到实际结果中去。

我们可以推测相关模式的表现恶化的可能性:潜在旅行者在组织旅行时使用的搜索词的变化,对一国(或地区)度假信息的搜索量的增加没有转化为由于意外事件而涌向该国的游客的增加。许多可供选择的搜索词可以被探索、评估和比较,但无论如何,为了了解搜索词的动态,还需要进行更多的研究。

虽然传统的评议功能是有用的,但当用户的兴趣不在网站预先定义的产品方面时,它们就会失败。在线消费者评论常常不能满足消费者的需求。

从评议看服务

网络和信息技术的广泛使用导致了大量的传统商业活动在网上进行。许多电子商务系统允许客户对他们购买的产品表达自己的意见,并查看以前客户发布的评论。提供这一选择的目的是希望提供可靠、可信赖的信息,并改进他们提供的服务。

例如,在hotels.com网站上,潜在客户可以阅读前几位客人关于他们可能感兴趣的酒店的评论。因为这些评论揭示了以前客户的真实体验,它们对潜在客户产生了强大的影响。

除了客户评论之外,许多网站还提供关于其服务的各种预定义方面的汇总评级信息。这有助于用户尽快评估评论内容。然而,商业数据分析的迅速发展使客户期望的不仅仅是准确的信息,他们期望以准确和符合其需要的信息形式提供更好的服务。

用户可以接受个性化的内容,并发现它有助于决策。虽然传统的评议功能是有用的,但当用户的兴趣不在网站预先定义的产品方面时,它们就会失败。

在线消费者评论常常不能满足消费者的需求。大多数现有的评论网站对产品的各个方面提供摘要的评分,这使消费者能够快速地掌握评论的内容。在相关的研究中,有关专家学者曾考虑了两个著名的酒店评论网站:Hotels.com和booking.com。Hotels.com根据以下五个预先定义的方面为每家酒店提供平均评级:清洁、服务、舒适、条件和邻居。同时,booking.com根据以下七个预先定义的方面为每家酒店提供平均评级:清洁、员工、舒适、设施、位置、性价比和免费WiFi。

值得注意的是,如果客户对酒店的“物有所值”或“免费WiFi”感兴趣,则hotels.com不提供用户所需的汇总评级,因为这些方面不是其系统的一部分。对这些方面感兴趣的消费者只能通过逐一检查每个相关的评论来比较和评估酒店,这可能非常耗费时间。更糟糕的是,消费者可能因为无法获得所需信息而有不满意的体验,从而导致他迁移到其他网站。换句话说,虽然有关预定义方面的信息有助于客户快速评估酒店,但当消费者有系统中没有预定义的独特需求时,很难从网站上的大量评论中获得准确的摘要。

因此,有关研究提出了一种根据用户特定方面对在线评论进行评级和聚类的方法。为了测试所提出的方法,相关研究使用hotels.com作为研究对象;但是,他们的方法并不是特定于这个站点的。Hotels.com符合上述特征,因为该系统提供了总体评级以及与清洁、服务、舒适、条件和邻里有关的平均评级摘要。它还显示了每个酒店的许多评论,每个评论是由许多句子组成的。

在相关研究中,研究人员使用了一种观点挖掘方法来提取隐含的观点,即根据特定的方面对评论中的句子进行分类。然后通过分析来确定这些句子的情感极性。使用这些方法可以形成酒店特定方面的情绪表,显示评论中正面、中性和负面意见/句子的数量。通过总结某一特定酒店的所有评论的情绪表,相关研究人员得到了酒店级别的整体情绪表。

此外,这使目标酒店的情绪表中的价值汇总成为可能,并使其能够获得与目标酒店在每个特定方面的业绩相关的评级。最后,可以对所有评论的情绪表进行聚类,以揭示总体情况,即对目标酒店的总体看法。

诸如这样的研究,其贡献主要有几个方面。首先,无论网站是否提供与预定义方面相关的汇总评级,该方法使用户能够获得他们感兴趣的特定信息。所提出的方法可以扩展评论网站的功能,以更加灵活和动态的方式满足用户的需求。其次,使用这些方法可以让用户快速评估和比较酒店,而不需要花费大量的时间阅读评论。

通常,包含产品或服务的客户评论的网站只允许用户根据网站预先定义的方面从在线评论中搜索摘要信息。当用户对未经网站预先定义的产品或服务的特定方面感兴趣时,他们可能难以获得所需的信息。

本项研究旨在通过检索基于用户需求所指定的搜索参数来对产品和服务进行审查,帮助用户从中提取信息摘要,从而将用户需求与网站上发掘的搜索特性进行对接。NGD或WordNet被用来计算现有评论句中的术语和用户生成的与兴趣相关的术语之间的相似度。然后使用SentiWordNet3.0来分析每个句子的情感极性。

这就产生了对每个评论的评论情绪表,显示了评论句子在用户感兴趣的方面的分布和情感。由此生成的酒店情绪表提供了与所述酒店相关的所有评估情绪表的概述。最后,将每个评论以向量形式表示,并使用一种算法对评论中表达的意见进行聚类,以便更好地了解针对特定酒店报告的主要类型的意见。此研究使用了来自hotels. com的顾客评论作为目标数据集来检验这些方法。

该方法可分为两部分。第一部分是对方面分类和情感分析相关结果的评价。第二部分是对实际审查进行聚类,以获得对这些审查中提出的意见的概述。相关研究结果证明了其所提出的--对于在产品或服务可以被评议的网站上所发现的信息进行总结(根据用户的兴趣)--方法的有效性。

 

夯实能源高质量发展的基础

建设制造强国,提高发展质量

升级之惑

建设数据中台,赋能创新改革

三管齐下完善互联网空间治理机制

数字英国:打造世界数字之都

相关文章