Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。基于Java语言构建的Hadoop框架实际上是一种分布式处理大数据平台,其包括软件和众多子项目。自2005年Hadoop诞生以来,十年中Hadoop已成为大数据革命的中心。Hadoop的生态系统构建于Linux生态系统并发展,一个显而易见的事实是,社交媒体和基于Web的应用驱动了Hadoop的发展。而Hadoop技术的商业应用代表公司Cloudera也随之迎来了发展的机遇。
Cloudera是为Hadoop提供咨询和技术服务的平台,其客户大多来自于传统行业,希望通过Hadoop来处理之前只能被直接抛弃的大规模数据。现在,除了这些传统行业之外,Yahoo!、Facebook、eBay、LinkedIn等公司都在使用Hadoop。
本期高端访谈邀请Hadoop的联合发明者,人称“Hadoop之父”、Cloudera公司首席架构师Doug Cutting谈谈Hadoop技术本身的发展以及商业应用前景。Cutting的目标是将Hadoop发展成云计算领域的RedHat,“我从来没有想过,除了搜索引擎,Hadoop的作用还能在其他方面有所发挥,它今天所受到的关注程度,已超过了我之前的所有想象”。
Q:Hadoop作为一项发展了十年的技术,在您看来未来将有怎样的发展?
开源技术的魅力在于身处社区之中,发展方向将由开发者所决定。作为Hadoop的联合发明者,我很欣喜地观察着这一过程。我也赞赏“Hadoop+”或者“后Hadoop”这样的名称,关注基于这一技术的相关应用及生态。
Cloudera作为Hadoop的商业应用代表之一,我们注意到基于Hadoop的行业应用刚刚开始,依然处于早期阶段。电信、金融、政府、零售、医疗、制造等领域都开始有Hadoop的应用。而这些行业的特点是,在大数据的应用浪潮中,以往基于每一个具体功能的“竖井式”应用都亟需一个平台,而这正是Hadoop的擅长之处。
在中国,有改造传统产业的现实需求,这使得我们更加看好未来基于Hadoop技术的应用发展。在平台化的过程中,企业级的应用需要安全、稳定、可管理的产品,而Cloudera所能提供的Hadoop商业套件可以满足这样的需求。
在我看来,2016年是基于Hadoop技术应用发展的高峰期。我们已经在日本看到金融和电信的相关应用,在汽车行业对于维修的可预测性的需求,也将触发更多的应用,不过由于这一过程时间较短,尚需要知识和经验的积累。
Q:您觉得Hadoop的发展过程中目前有哪些挑战?
我觉得在这一点上Hadoop所面临的挑战和数据生态系统的是一样的。首先是成熟度问题,这是一个需要完善的过程,Hadoop在商业化场景中的应用依然很新。其次是人才问题,无论是在中国还是在美国,都需要大量能够熟练使用Hadoop的程序员。第三是复杂度,云计算与大数据带来的使用环境的复杂,这催生了平台化工具的用武之地。第四是安全与信任,这在任何使用场景中同样重要。 最后一点是变化,如何迎接变化是需要持续关注的话题。
Q:Cloudera公司的业务处于一个快速增长阶段,您对此有怎样的看法?
我能看到自己的发明正在变得越来越有力量。Cloudera公司每年的增长率都在百分百以上,在相当长的一段时间內利润和客户数也都在成倍增长。限制Hadoop增长的是能力和经验的欠缺,这也和人才问题密切相关。
对于目前的企业客户来说,使用Cloudera提供的套件化的Hadoop依然只是自身IT架构的一小部分,而随着最佳实践的普及,将可以让更多公司能够更容易地使用该技术。毫无疑问,Hadoop将成为公司IT架构中更大的部分。
Doug Cutting
Doug Cutting是包括Apache Hadoop和通用搜索平台Apache Lucene以及Apache Nutch等几个成功的开源项目的发明人。2009 年,Doug离开雅虎,加入Cloudera,担任首席架构师。
在雅虎期间,他是创建及部署生产环境的用于关键性任务业务分析的Hadoop存储与分析集群的团队关键人员。 Doug拥有斯坦福大学语言学学士学位,目前是Apache 软件基金会的主席。