当前,大数据正以一种革命风暴的姿态引发全球关注。阿里巴巴马云指出,“互联网+”已从IT时代到DT(数字科技)时代,而DT是一个数据更充分流动的时代。而且未来大数据会作为一种资产存在,并将诞生一个万亿级别的交易市场。
有人将大数据比作“原油”,其实大数据挖掘才是大数据的核心。据公开数据显示,2013年中国产生的数据总量超过0.8ZB,相当于装满8亿个容量为1TB的移动硬盘。如果不具备挖掘能力,如此海量的数据只能处于休眠状态。大数据通过数据挖掘技术,将海量数据进行归纳、建模、分析,找到数据中的关联关系,从而得出事情发生的可能性。打个比方,大数据会告诉商家客户喜欢什么,甚至可以精确到每一位客户的喜好。同时,大数据挖掘还需要众多高性能计算机同时承担数据存储、数据处理、数据挖掘的工作,这便是云计算。大数据挖掘必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术,才可以快速实现。有这样一个故事。
2003年,奥伦·埃齐奥尼准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。
对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而,埃齐奥尼是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始,他创立了许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念。飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。
埃齐奥尼表示,他不需要去解开机票价格差异的奥秘,他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。于是,埃齐奥尼开始着手启动这个项目。
埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站上搜集来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为很多没卖掉的座位、季节性原因,还是所谓的周六晚上不出门,它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。
这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机票预订数据库。有了这个数据库,系统进行预测时,预测的结果就可以基于美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出。这就是大数据的魅力。
本书首先介绍了大数据时代的特征,可以帮助你对大数据及其价值有一个概括性的了解和认识。其次,你将知道如何培养、挖掘、处理数据,使数据为自己创造更大价值。最后,介绍了大数据在企业决策、运营管理、金融投资等方面的实际应用。内容简单实用,特别适合初级读者阅读。