很多人可能都有过网购的体验,像淘宝、天猫、京东等形形色色的电商平台上琳琅满目的商品是数据化的现实物品,很多人可能在下单的时候没有注意过这一细节,比如你在网上买了一本最新的小说,网站就会自动提醒你买这本小说的顾客中还有65%的人买了另外一本,这样你很自觉的就会增加对这本书的好感,进而产生购买欲望。通过这形形色色的数据化的产品,我们和人以及物建立起了联系,物与物之间的联系我们叫作物联网,人与人的联系我们叫社交网,人与物建立的联系我们叫作互联网。
我们为什么要大数据
当我们端起一杯咖啡喝上一口,知道自己所品味的香味是实实在在的物质,不是数据;我们喝咖啡这个过程是客观的动作事实,也不是数据。依次类推,人的工作和生活,都由各种实事实物构成,本身并不是数据。那我们要数据干什么?我们还要追捧“大数据”吗?下面就来说说大数据和我们的关系。
一、人追求自我实现
所有生物体都有一个本能:汲取更多的外部能量,实现无休止的自我繁衍。在漫长的自然竞争中,生物与非生物及各种生物之间在各自本能驱动和外部约束下建立起动态平衡。任何生物体对外部的适应和改造,都要基于一个共同的过程:“接收—内部处理—外部反馈。”这个过程中,既改造世界,也改变自身。
人类无疑是生物群落中卓有成效的一支。我们自祖先起逐步发明了一套独特的“刺激—反应”系统。这套系统突破了个体自身能力的局限,而意图将个体联合起来。为此,最成功的努力是:对个体遇到的外部信息进行编码,进而对个体成功的经验进行编码,以便不同个体之间展开交流和协同,甚至隔代传承。
最初的编码,是散见于各古文明遗址的图腾或符号。这些符号复杂化之后,演绎出三种功能化的应用:一是数字,用于计数,发展为数学;二是文字,用于表意,发展为文学;三是图像,用于渲染,发展为艺术。
在一个相当长的时期内,三类应用被逐步强化,进化成为符号的表达式、印刷术、绘图工具和计算器,由此,人类群体的知识、技术及艺术的持续创新和积累呈加速度发展,人类的经济和社会生活也走向了全面协同和繁荣。
这种繁荣已经经历了两个大时代,一是以中国唐宋时期为代表的农业文明,二是以20世纪欧美为主体的500强企业为代表的工业文明。两个大时代的背后,都是缘于人类对世界认识和改造能力的两次飞跃。21世纪开始,第三次飞跃开始了。
二、数据化让人类能力突飞猛进
第三次飞跃,就是大数据应用的出现,它让人类对世界的编码实践进入了全新的历史阶段。
1.范围大拓展
(1)环境数据化:建筑体、地表、地下全息化的勘测和描述;逐步加深的对大气、月球、外太空的探测和描述。
(2)物质数据化:各种物质元素的分析表述;各种生物(包括人)基因的分析表述;各种人工产品的计算和记录。
(3)行为数据化:全部生物(包括人类)个体行为的采集和记录,社会性行动的采集和记录。
(4)知识数据化:概念、经验、技能、用例、程序、标准等的归集和记录。
(5)关系数据化:身份、信用(包括支付凭证)、权益、义务、荣誉、形象等虚拟化并形成共同合约化机制。
2.结构大突破
目前所知的数据,呈现出多种不同的结构形态,比如:数字、文本、声音、图像、视频。不同结构之间的互译互通,不但使人们对特定对象的认识实现真正的全息全程,而且令人类文明起步时数字、文字和艺术的分裂重归融合。这种对数据结构的突破表现在:
同源异构:即来源于同一学校,有文本化的教案资料,有视频化的学生活动,有图片化的建筑设计,还有校园网络门户、学习群组贴吧。即都来自一家公司,有产品设计原型,有设备传感信息,有资产财务档案,有市场客户活动,有工作会议与项目进程。异构信息的解读和互译是各种私有云应用的前提。
同构异源:即都是数字化的信息,可能是消费记录,也可能是体检记录,或者是考试成绩,甚至是绩效测评。这些信息如何在一个人身上整合运算?即都是视频化的信息,有网络对话的,有交通监测的,有新闻采访的,有编导制作的。这些信息如何围绕一个目标整合分析?异源信息的整合关键在于目标与价值设定之后的关联信息甄别、赋权和转化的算法。异源异构:不同对象,不同结构,不同来源。这是立体社区或数字城市的命题。各种公有云的解决方案正在对此展开想象并转为争先恐后的实践。
3.计算大超越
计算能力分为集中计算和分布计算两条战线。集中计算实验机的竞争一直未见厌倦,最近一则中国领先的消息让部分国人一时振奋。从电子计算到量子计算到生物计算,工艺材料变革和计算模式创新交替发挥推动力,直到相比之下,大脑自身的计算能力可以忽略不计。更具革命性的是分布式计算,即云计算的应用。这种联络全世界计算能力的构想,就是联络全人类心智的上帝,它将人类久远的梦想推向可以触摸的现实。云计算在联结计算能力的同时,也连通了分布式的数据和行为,“地球村”从概念进入了实践。
公有云和私有云至今没有一致的分区认定。也许可以将基于云计算之上的公共性质的应用归为公有云,与此相对,任何围绕特定利益主体的专属性应用都是私有云。比如:穿戴式或便携式设备与个人数据中心的互联可能构成“个人云”,而智能家居与成员信息的互联则构成“家庭云”,依次类推,则有企业云、学校云、医院云等。
4.存储大升级
大数据需要大储存。解决大储存有三种思路:
一是硬盘加大。这是开始时的努力。很多提供云储存服务的巨头,不可避免地上马宏大的数据中心工程项目,但这种既不经济又不环保的方式恐怕是不可持续的。
二是算法革新。存储虚拟化:通过合并孤立的存储池,按整个网络的需求而不是按每种应用的需求确定存储空间的大小,即使跨多个文件服务器或SAN也可以灵活应用。生物储存:人类基因组序列中,1克的重量可以包含几十亿GB的数据量,在少数科学家那里,新的DNA归档系统正在替代传统的1到0的编码规则。光储存的优化:光量子数据存储技术、三维体存储技术、近场光学技术、光学集成技术的发展,光存储技术也将是广泛应用之一。
三是管理创新。数据管理包括摄入、记录、传播、加工、储存、安全,而同样重要一环是“删除”。对无效和低效数据的识别和删除,是未来技术应用的热区。
三、大数据让个体与群体共同再造
大数据让外在环境在人类面前遁形,也让貌似混乱的社会化行动开始有迹可循,大数据让不同产业之间拆除了隔墙,也让不同个体的专业化分工走向了协同。这样个体和群体同时受益的创新,在工业时代并不多见。
大数据如何提升了个人能力?
识别能力:你可以更全面地了解一个关系紧密的人,当然也可能因此而发现了对方隐藏的缺点而导致分手。你可以轻易区分肉眼无法看清的物件或者事理,虽然有些人由此心存侥幸去博彩或炒股。
记忆能力:记忆可以安心地借助外部设备来实现,心智的重点可能会倾向当期的体验。中国人最想做的第一件事,也许是学外语的压力可以交给可穿戴的即时交流设备。
运算能力:从掰手指,到用心算,到算盘、计算器,到软件和云计算,运算的加快不只是制造产品上,更体现在创作作品上,包括为大家寄予厚望的天体物理学家、生物药学家或者心理学家们加速证明那一个个影响深远的假说和治病救人的良方。大数据如何提升了团队的能力?
知识共享:维基百科也许原始得像大数据时代的“甲骨文”,但它启示了知识共享的新方式。每一个团队,每一个企业,每一个开放平台,都会产生自己的维基百科。
协同反馈:书信消失之后,电子邮件也正在消失,即时通信正在变换着身法,以苟延残喘。暂不能预见即时通信之后是什么,相信不再需要一个共同的端口,不管是QQ、微信等。
合作创新:个人发明不再可能,合作而不创新也不再可能,产品即是用品,合作即是服务。
大数据是大众的,但对大数据的欢迎却从商家先开始,这预示着另一种战场的另一场杀戮吗?
大数据时代已经来临
数据已经渗透到我们生活的每个角落,我们的衣食住行都可能在不知不觉中被记录,成为“大数据”中一个微小的组成部分。“大数据”在物理学、生物学、环境生态学等领域的存在已有时日,在营销行业的应用最为人熟知。
沃尔玛的啤酒和尿布湿事件是“大数据”营销最经典案例之一——沃尔玛通过分析一年的购物小票发现,70%以上的消费者在购买啤酒的同时都会购买尿不湿,于是将啤酒和尿不湿排放在相邻的货架,最后两者的销量大幅提升。如果不是对销售数据的深入挖掘,经验丰富的营销人员也很难想到啤酒和尿不湿两个毫无关联的商品放在一起可以促进销量,这就是“大数据”营销。
从经典案例可以看出,“大数据”具有以下特点:一是要全体不要抽样,在“大数据”的概念里没有样本,目标永远是全体,沃尔玛是对全年所有消费者购买小票进行研究,而不是抽样分析;二是要效率不要精准,既然不是抽样,那么庞大的数据中的个别数据出现偏差不会影响整体结果;三是要相关不要因果,分析数据后得出的是关联性结论,而不是因果关系,对于沃尔玛而言,只需要知道买啤酒的人中大部分会买尿不湿,至于造成这种现象的原因,它不需要关注。
“大数据”正在影响着全球销售行业,咨询公司Radar Research在2012年11月份的调研发现,全球40%的营销人员通过使用DMP(数据管理平台)来帮助他们收获营销大数据,这一比例正在逐年上升。无论是沃尔玛通过分析天气和购物小票得出飓风来临时美国人会大量囤积草莓馅饼的结论,于是向飓风经过的超市及时运送了好几卡车的馅饼挞,被一抢而空,还是美国电视剧《纸牌屋》通过大数据选出最受观众欢迎的导演、演员和剧情,播出后收视率一路飙升;无论是谷歌公司根据谷歌搜索记录提前描绘出全球甲型H1N1疫情分布图,还是亚马逊利用采集到的用户数据总结消费者购物行为、媒体接触偏好、潜在需求、购物关注点等各方面的特征,从而推荐相关商品,实现更加精准的营销效果,这些都是营销行业对“大数据”的应用。
有人说大数据离我们很远,其实不然,当你在百度里搜索一次某品牌香烟,你就表明了自己正在对该品牌相关的信息感兴趣,我们就是这样暴露在大数据时代,在这里没有隐私,你的一言一行都可能被搜索引擎、社交平台、购物网站记录下来,成为商家勾勒电脑和手机前那个“你”的依据。于是慢慢地我们发现,当我们需要买冰箱时手机里恰好收到了一条某某品牌家电打折的广告,当我们在亚马逊上浏览图书时,弹出的推荐窗口里的图书恰好是自己感兴趣的,似乎商家比我们更了解自己。
身处大数据时代,我们不禁思考,作为众多快销品批发商之一的烟草商业企业,离“大数据”营销还有多远,怎样才能搜集消费者数据,运用“大数据”思维实现更精准的营销?
首先将卷烟的条码和盒码升级成二维码,接着研发出可以扫描二维码的手机APP,鼓励消费者下载安装,消费者购买卷烟时手机扫描二维码支付即可,这样可以准确掌握所有消费者的购买品规格、时间、地点、次数等信息,进而分析不同地域的消费结构、品牌偏好和消耗量,然后将APP的功能不断升级,让企业能获取更多消费者的动态,掌握消费者的其他习惯,为后期全面分析烟民各项特征与购烟习惯的关联性提供依据,最终提高货源投放的有效性、营销的精准性。
实现卷烟的“大数据”营销,相比技术层面的难关,行业更应该关注思维方式的转变。行业一直进行着各类数据采集工作:库存采集、价格采集、需求预测,如果能在保证信息采集准确性的基础上,让数据“说话”,将这些数据运用到极致,我们就向“大数据”营销迈进了一大步。
得数据者得天下
大数据被认为是人类文明第三次浪潮的主角,将改变人类的思考模式、生活习惯和商业法则,被认为将引发社会发展的深刻变革,被美国定位为未来最重要的国家战略之一,是未来大国博弈的决胜关键……
商人们很快将它变为真金白银的生意。Amazon和Facebook用它卖出了更多的广告;Netflix用它创造了《纸牌屋》的收视奇迹;ZARA用它实现了比LV还高的利润率;奥巴马用它赢得了总统选举,但又为因它而起的“棱镜门”事件而焦头烂额……
然而,世界对于“大数据所带来的机遇是否被过分炒作”的质疑从未停歇,有关“大数据还是大忽悠”的辩论也异常激烈。
“在15年前,人们认为互联网存在泡沫,但事实证明其并没有被高估;5年以前,人们又都认为电子商务被夸大,但如今看来这也是错误的结论。新事物的发展需要泡沫,这样才能吸引更多的资金和人才,沉淀下来的才是真正宝贵的东西。”2014年国内一流的大数据解决方案提供商AdMaster(精硕科技)创始人兼CTO洪倍接受《时代人物》记者采访时说。洪倍称得上是大数据技术方面的权威,在他的带领下,AdMaster技术团队独创了技术,获得了国家软件著作权证书以及上海市高新技术成果转化奖。
一、数据“大爆炸”
你可能并不一定知晓下面这些数字,但你一定会感受到“数据”正在呈几何基数的爆炸性增长,因为10亿台电脑、40亿部手机、无数的互联网终端……正在使得我们生活的世界高速数字化,“信息爆炸”早已从抽象的概念变为现实的描述。
从出现文字记录到2003年,人类总共创造出的数据量只相当于现在全世界两天创造出的数据量;在如此大的基数之上,全球的数据量仍然每18个月就会翻一番;预计到2020年,全球数据规模会达到今天的44倍;如今人们在一天之内上传的照片数量就相当于柯达发明胶卷之后拍摄的所有图像的总和……
就在10年前,1.44M的3.5寸盘还是我们装机的必备;几年前,体积不大但容量数百M的移动存储还曾让人们兴奋不已;而现在,GB级别的小U盘和TB级别的移动硬盘早已是普通用户的寻常之物。
数据分析并不是一个新概念,也有人会因此对大数据不以为然,认为这只不过是新瓶装老酒而已。但是,量变引发质变传统数据所采用的获取、存储、分析和解释的方法和技术,早已无法应对现在的数据规模、产生速度和复杂程度了。
“大数据发展有一个最大的特点,就是它会自己促进自己,数据量越大,你越想去算,算完了你就会想采集更多的数据,来验证你的想法,周而复始数据量又会上去,它就是一个正循环。”数据的规模越大,洪倍就越兴奋。2006年,洪倍和闫曌共同创建AdMaster,主要专注于广告监测技术的探索、数字广告投资回报率的整体研究和监测数据的分析挖掘。“从公司刚创立一直到今天,随着生意规模的上升,数据量也随之上升。数据规模大了之后,存储或者清洗、挖掘都有着较高的技术要求,那时我已经意识到这是一个大数据问题了。”数据的获取和挖掘都已找到解决方法了,AdMaster拥有了庞大的数据量。AdMaster每天从互联网上获取的数据都是以T计算的。那么怎么“玩”这些数据呢?只有把庞大的数,变成有用的据,才能被称为“大数据”。洪倍一直强调这才是大数据的价值。
二、“取舍”的艺术
“取舍”之道,即为由数成据之道。“淘尽黄沙始得金”,面对互联网上浩若星海的数据,需要秉持一心,去伪存真,才能获得有价值的“据”,而不被数据淹没。作为AdMaster大数据的技术领袖,洪倍会根据实际业务场景的需求来做取舍。“比如有些数据可能算起来很复杂,但却不产生商业价值,它只能描述一个大家都知道的事实,算下来意义就没有那么大。从这些角度,我们会做取舍。”
AdMaster存在的价值,即通过对海量数据的管理和应用帮助广告主提高商业价值。从本质上说,大数据之于商家,就是通过采集的大量用户行为数据寻找“众数”,发现共同的兴趣点或痛点,然后投其所好地进行产品设计和针对营销。对于商业机构,甚至社会学研究,大数据都是极好的工具,是传统的市场研究的升级。
营销是一门科学,也是一门艺术,一直是一个争论不休的话题。那些领先时代的能传颂千古的大画家、作家、名小说等很多都会被扼杀于摇篮。那么多的艺术家在身死后,他们的作品才受到世界的认可。而营销则需要立竿见影,没有任何营销是为了百年后产品的大卖。AdMaster基于互联网的普及和数据的爆发,能够帮助广告主实时发现人们的兴趣、需求,能够在第一时间帮助品牌广告主调整营销策略,使得营销的效果最大化,从而提升其整体商业价值。
“我们讲大数据的准确率,一定在某个场景下,当这个场景的前提成立的时候,一定可以得到一个很客观的正确描述。”对于大数据预测,洪倍承认它也有其局限性。“但是,从数据分析的角度来看,它是科学的。”洪倍又补充说。
不过,在“技术控”洪倍看来,尽管大数据里艺术的成分相对比较少,也并非没有艺术。“大数据里面其实也有艺术,我们做取舍就是一种艺术。”洪倍说。
三、从概念到生意
在2012年,大数据才逐渐被中国产业界所接受和关注,但业界普遍认为2013年是中国“大数据元年”,未来三年大数据市场都将呈爆发式增长态势。赛迪顾问统计数据显示,2012年我国大数据市场规模为4.5亿元,同比增长40.6%;而预计到2016年,大数据行业规模将突破百亿元。
成立于2006年的AdMaster致力于通过技术驱动的平台为广告主提供数据应用服务。目前,AdMaster服务于快消、IT、汽车等多个行业80%的世界100强品牌及众多国内知名品牌,占超过50%的市场份额。同时,也在推动行业发展和变革中不断努力。例如,AdMaster作为主要技术支持协助MMA(中国无线营销联盟)发布了国内第一个开源的Mobile SDK解决方案,统一了国内移动营销的监测机制。
“在三四年前,手机刚刚出来的时候,我们就在做跨多屏数据应用模型,如何完成跨电视和PC、手机和PC、手机和电视等跨多屏营销的分析和优化?比如看电视的时候同时玩手机,会不会降低对电视节目的认知?消费者多屏的使用习惯如何?哪些屏幕在哪些时间的品牌传播效果最好?与之相关的,我们已经做了很多的研究,我们也是国内第一个实现跨多屏评估和优化的数据应用公司。跨屏数据的应用是AdMaster数据应用的一部分,AdMaster的数据应用主要还包括广告数据、社交媒体数据、品牌电商数据,以及把前端广告数据、社交媒体数据及后端品牌电商数据整体打通分析和应用的全流程数据应用服务。目前,这在国内也是只有AdMaster的技术才可以实现的。”洪倍说。
四、行行都爱大数据
传统的广告,不能优化,不能控频,也就是比较盲目的粗放的投放,而不是精准的投放。在洪倍看来,传统媒体也在面临转型。首先,传统媒体要开始数字化,比如电视;其次,很多的传统媒体,主要都是以内容为核心出发的,读者可能喜欢什么样的话题,喜欢什么类型新闻专题,他们就做什么。然而,数字营销的精准性体现在它开始以人为本,营销方式从内容购买转化为目标人群购买,这些都无法离开大数据的支持。
同样,传统媒体的转型,它们的广告营销也需要大数据的支持。“传统媒体转型比较突出的就是上海澎湃。它通过监测微博上的舆情,发现某个事情最近会成为一个热点,于是做一个专题,深究一下这个事情背后的故事。通过这种方式,能够把人们吸引回来。”洪倍举例说。
洪倍告诉我们,小到“以最合适价格和时机购买衣服”,大到“重要的经济决策中如何提高经济效益”,大数据都会告诉你最佳答案。“它提供了一种更便捷的生活方式,比如物流中的一些大数据优化,能够让消费者更快速地收到货。例如一号店、京东,它们的物流其实就是大数据分析出来的最优的配送的方案。”
大数据的渗透力极强。从本质上讲,各行各业都已经在数据化了,比如电信业正在变成电信数据业,金融业变成金融数据业,医疗业也变成医疗数据业……这也就意味着,大数据挖掘将成为各行各业的必修课。
确实,如果我们把大数据的价值仅仅理解为可以更精准地向用户推送广告就太为狭隘了。
“与人脑总是喜欢问‘为什么’相比,大数据会直接告诉你‘是什么’。”洪倍举例说,冬天,人们总是被告知要记得戴帽子和手套,否则就会着凉,这是人脑的思维。但大数据分析会告诉你,着凉可能是病毒的问题,跟戴不戴手套和帽子没有很直接的关系。再如,到餐馆吃饭,第二天生病了,人脑的思维马上会用可能吃坏了东西这样的理由来解释,但从数据统计学角度,生病还有可能与有细菌的手握手导致的。“如果有了大数据,就可以让脑子慢下来,不用去推测原因,直接回答结果。”
“大数据”时代刚刚开始,留给人们的想象空间还很大。
大数据记录了一切
提起大数据,很多人都感觉略知一二;但大数据到底是什么,又很少有人能解释清楚。2014年两会期间,包括小米科技创始人雷军、联想集团董事长杨元庆、科大讯飞董事长刘庆峰在内的多位代表、委员都提出了与大数据相关的建议和提案,他们一方面希望从国家层面推动大数据的发展,另一方面也对它在信息安全方面可能存在的隐患提出了警示。
一、大数据记录了所有一切
一份调查显示,2013年我国产生的数据总量超过0.8ZB,相当于2009年全球的数据总量;而到2020年,一个普通中国家庭每年产生的数据量,将相当于半个国家图书馆的信息储量。
中国电子学会秘书长徐晓兰委员指出,海量的信息储存和挖掘,既是大数据的价值所在,也是它有别于传统互联网、可能对信息安全带来的新隐患。
“大数据时代,记录了很多以往根本不可能或者不需要记录的数据,比如微博、朋友圈的内容,上网产生的cookie,家庭水电气使用的情况,汽车和大型设备上安装的传感器拿到的数据等。”社交数据分析公司独到科技的CEO张文浩说,“如果这些信息都是‘孤岛’,影响可能不大。但一旦相互关联,影响力会大得惊人”。
中科院信息工程所所长田静委员也表示,以往碎片化的数据只是盲人摸象,但现在这些碎片全都被存贮起来,通过相关性分析拼凑,“就知道象到底长什么样了”。
技术上的差距,也造成了大数据暂时的“不安全”。
“没有自己的分析能力,我们怎么能搞清楚哪些数据是需要保护的?”
对于田静的这个“问题”,国家信息化专家咨询委员会副主任、中国工程院院士邬贺铨提供的一组数据给出了答案。数据中,大约有一半是应该保护的,但我们现在真正保护的“只有一半的一半”,很多数据在有意或无意当中被获取,“如果这些数据整合起来,被某些别有用心的人利用,会对安全造成很大的影响”。
徐晓兰介绍,目前我国很多机构和企业使用的大数据分析软件都是国外厂商生产的,特别是近几年视频等多媒体数据爆炸性增长,“这些数据都是异构化的,这部分软件是我们的短板”。
著名军事专家尹卓委员则指出,现在互联网所使用的服务器大都放在美国,“自己没有服务器怎么可能安全?”
另一方面,在田静看来,缺乏大数据环境下的安全理念也是重要原因之一。“过去认为无害的信息,在数据爆炸的今天,已经完全不一样了。观念不改,是没有秘密可保的。”
张文浩也认为,国人缺乏这方面的意识。“在美国,很多人都会要求不公开自己的隐私,或者主动把自己的数据提供给某些特定的机构使用;但在国内几乎没有听到过,大家也不知道什么类型的数据可能会有多大的风险。”
二、大数据或许也很“危险”
张文浩认为,很多人对于大数据的理解都只注意到数据的体量和统计,“其实,通过深度分析,从纷繁的数据中抽象出规则和原理,并实现对未来的前瞻性预测,才是大数据真正的价值和魅力所在”。
因为大数据,奥巴马在2012年成为过去70年来,第一位在失业率高达7.4%的情况下成功连任的美国总统;因为大数据,Target超市“预测”了18岁少女的怀孕……
任何一项新技术的背后,都可能悬挂着一把达摩克利斯之剑。大数据也是如此,在人们惊叹于它的“神力”之时,“威胁”也正悄悄逼近。
“前两年,国外一家情报搜集机构利用国内某机构人员公开发表的数据和资讯,进行深度挖掘分析,生成了有价值的情报。”徐晓兰告诉记者,后来经过详细调查,确认情报确实不是该人员提供,而生成情报的那些数据本身也是可公开的。“这在以往几乎是不可能的,也给我们敲响了警钟。”
尹卓以战时的交通流量信息举例说,如果不注重数据的安全使用,将可能对国家安全带来隐患。“科索沃战争中,南联盟的油料库虽然隐蔽得很好,但美国军方通过对卫星图中的交通流量进行分析,划定了大量油罐车经常出没的区域,再进行精确搜寻,从而一举炸毁。”
如果您认为这些“危险因素”离自己很远,那就大错特错了。
“现在很多智能手机的应用都要求访问通讯录,”邬贺铨说,很多人觉得自己没有什么秘密,就同意了。“但实际上,这不仅会透露自己的大量信息,也会把很多人置于隐私暴露的危险之下。”
张文浩也指出,现在很多年轻人都有用手机发微博或者“签到”的习惯,“这样其实会泄漏自己的很多信息。比如你白天经常签到的位置就很有可能是你的单位,傍晚以后签的多半是自己家”。
三、大数据正经历成长的烦恼
“要想征服数据,只有更好地利用它们。”张文浩说,数据是一种资源和财富,积累越多,产生的效力也会越大。
这个观点得到了邬贺铨的认同。他认为,越想规避大数据带来的安全风险,越需要搜集储存海量的数据,并进行深入的挖掘分析。“有统计显示,国内数据搜集量不及日本的60%和北美的7%,大量数据就这样白白流逝。”
“企业掌握的数据毕竟有限,而且是局部的。”百度公司董事长李彦宏委员提出了数据开放的概念,国家应该把那些不涉及安全的数据公开,让有能力的机构进行更好的分析利用。
国家基础地理信息中心原总工程师李莉委员指出,有的公共部门掌握了大量公共信息,这些数据是国家基础信息的重要组成部分。邬贺铨强调,这些数据“不愿与其他部门共享,导致了信息不完整或重复投资”。
共享数据在技术上是否存在很大的难度?在徐晓兰看来,现在需要大力发展的数据挖掘、分析方面的技术,对于数据共享本身而言,技术不是最大的障碍,关键还是利益协调。她说几年前,国土部和银监会准备摸底国家土地信息,“一开始很多人提出各种各样的困难,几乎认为是不可能完成的任务。但后来引入问责等行政手段,得到地方配合,进行得就很顺利”。
张文浩认为,建立一个公开、透明、规范的数据市场,将会大大增强数据的利用率。但在这个过程中,需要仔细考量什么样的数据可以进入市场。
这就涉及立法的问题。“界定‘隐私’和为数据进行安全分级,是制定法律法规时要优先考虑的方面。”他指出,“个性化服务和隐私之间是一个博弈。名字、电话、住址……不能什么都说是隐私,因此需要为数据安全分级。简单地说,通过数据分析的经验,我们会知道哪类信息具有更强的指向性和排他性。这类信息的安全级别就应该更高”。
大数据改变工作与生活
如今,有很多人都在谈论大数据。他们说大数据其实就是指数据规模大,指我们收集数据的速度快,指我们分析数据会更容易。他们是对的。但是他们的说法却仅仅是描述这一现象,其实这场大数据革命的真相很是复杂。
让大数据时代与众不同可以概括为三个方面。第一,我们现在收集了多于以往任何时候的数据;第二,我们现在需要的数据量大但对精确度的需求较低;第三,因为有了数量充足而精确度相对较低的数据,我们可以通过相关关系而非因果关系来进行数据分析。
如今我们掌握着多于以往任何时候的数据量,可以就某一现象收集到更多数据。想想看,在过去,医院的护士会一天三次来收集病人的生命体征数据,包括体温、血压、心跳。而在数字化的大数据时代,我们每天能收集的关于病人每分钟生命体征、官能的数据点达1200个,可以得到更多的数据和细节来判断病人的康复进程,从而更好地确定他们之后的治疗重点。
再来看看科学方面,十年以前,用最新型的望远镜观察星空,投入使用的头一年能观察到的信息数量比之前天文学家所观察到的信息总量还要大,那是极大量的数据。然而四年之后,又有新的望远镜问世了,这个望远镜五天观察到的数据量要比之前2000年出产的望远镜一年内观察到的都要多。
或者再来看看这个事实,谷歌每天都要收集处理巨大量的数据,这些量甚至要比整个国会图书馆——世界最大的图书馆所有存书的信息量还要大。这就是我们现在拥有的数据量,也是我们对某一现象能收集到的复杂的数据。正因为拥有大量细节,我们现在能接受的这些信息中有一部分不那么准确,即有一定的不精确性。
设想你有一个葡萄园,为酿酒种植葡萄。在过去,你会用一个传感器来测量温度,但如今,你可以为每棵葡萄树都安装一个传感器,这意味着什么呢?这意味着我们总共有成百上千个数据收集点,为我们提供关于湿度、温度、水量的精确数据,由此我们可以完美地、有针对性地对待每一棵葡萄树,从而最大化地提高酿酒质量。但同时,并不是所有的传感器都能收集到绝对准确的数据,比如有时候阳光会正巧照射在某一传感器上,使得指针稍有变化,而其他的传感器可能在暗处,所以有些数据可能不是完美的,但是因为我们掌握超大量的数据,所以这一点是可以被接受的。
在大数据时代,一定程度的不精确性是可以被接受的,这跟以往的小数据时代是非常不同的。在小数据时代,我们拥有的数据量非常少,很少的数据点让我们陷于数据饥荒中,我们生活在信息匮乏中,因此我们要求每个数据点都是精确的,也必须极精确地、高质量地来处理以及呈现它们。而如果我们拥有足够的数据,我们就不需要那么做了,我们可以更宽容地对待它们,用不那么精确的态度来对待它们。
这就提供了我们重新分析数据的能力。人们分析数据已有几个世纪的历史,人们尝试通过数据来探索事物的缘由,所有科学家都是这么做的。在商场,人们试图探索现象背后的原因:为什么有的产品就比其他的卖得好呢?但是也许我们无须这么做。在大数据时代,我们认为可以放弃追寻原因;相反,去利用丰富大量的数据,用相关关系进行分析。相关关系分析法非常简单,就是说跟另一件事物相比,这一件事物有无价值,如果其中一者的价值上升或下降,而另一者也会随之变化,那我们就知道这两件事物之间存在关联,因此我们就可以利用一个去预测另一个的发展。
举例来说,亚马逊利用用户过去的点击记录和购物信息来预测顾客未来可能会想买什么。这样一来,亚马逊就能向我们推荐我们可能会买的书籍、光碟及其他东西。亚马逊在这项服务上做得非常出色,以至于其收入的三分之一都来自于这个推荐服务。这是一个极其简单而又极其有效的技术。
像Decide.com这样的公司是如何运作的呢?它们所做的就是自动浏览各种网页,抓取几十万不同商品的价格信息,从相机到电脑到洗衣机……以目前的价格信息为基准,再继续抓取此类价格信息。如今,他们拥有500亿个价格信息。当他们进行相关关系分析时,可以看到某一商品在未来一到两周内价格变动的可能性,这一服务对顾客的用处是极大的,他们可以登录http:decide.com搜索某一产品。比如相机,就可以看到相机目前价格怎样,变化趋势是什么,在接下来一周将要增长还是下降,以此决定是现在就购买还是再等三天或一周。100次中能有77次,帮助每位顾客平均节省了100美元。他们不需要知道价格为什么变化,他们在这一方面也没有研究,但是只知道“什么”,知道价格会不会改变就足够了。
这就是大数据的未来,通过相关关系收集更多数据点,接受不精确性,我们可以更好地预测未来,更好地理解和洞察社会、世界和生活。这使我们不仅比现在做得更好,还让我们可以去做那些我们认为永远不可能做到的事,这就是大数据的发展前景。
在大数据时代,拥有数据的公司无疑将取得巨大的成功。因为他们具有洞察力,大数据会提供他们全新的洞察力。但是为了使大数据的价值彰显出来,这些公司需要清楚这其中最根本的改变。过去,在前大数据时代,数据不被认为是商品,而是追求结果的工具。更有效的生产需要数据,在商场中找到合适的买家需要数据,提高生产工艺需要数据,但数据本身并不被认为是可以贩卖的商品,并不被认为是创造收入的资源。而这一观点将会改变。未来,数据将成为重要的资源,就像资金、劳动力一样的资源。
但是第二点,也是更重要的一点,在小数据时代,也就是在过去,我们只为了单一、直接的目的来使用数据,比如账单数据是为了付款,市场数据是为了推销新产品,生产数据是为了提高生产力。一旦直接目的达成了,这些数据就会被弃掉。但在大数据时代,这将会非常非常的不同,因为在大数据时代,数据的价值并不体现在达成直接目的,而是体现在间接目的上,体现在那些我们甚至在收集数据时都没想到、而在后来才想出的无与伦比的用途上。谷歌每天都要接受很多搜索请求,事实上,谷歌每天要接受30亿个搜索请求。对待这些数据的原始方法是处理搜索请求、找到搜索结果、呈现搜索结果,然后把之前的搜索请求抛到脑后。但是谷歌不是这样做的。谷歌将每个搜索请求另做他用。比如,他们会用搜索请求数据来提高他们的拼写检查功能,这样他们可以在你输入单词时快速查错。他们还用搜索请求数据来提高关联搜索功能,在你输入搜索关键词时自动联想出相关搜索。如此一来,他们从已有的数据中得到了更大价值,并应用于不同目的。
某种程度上,在大数据时代来临之前,数据的价值只是部分地体现了出来,就像冰山一角,就像只啜饮一小口,就把一瓶上好的葡萄酒扔掉一样。然而在大数据时代,我们会喝掉并享受整瓶酒。因此,有了这能量巨大的价值资源,商业以及社会的哪些方面将会发生改变呢?方方面面都将发生改变。
以卫生保健为例,目前我们都是以以往病人的平均情况来为每个人用药,有了大数据,我们可以为每位病人定制针对其个人的治疗计划,从而保证治疗是最高效及最有效的。
以教育为例,在教育方面,我们可以利用大数据收集学生们读书、理解程度的信息,将结果反馈给老师,而教学效果也将因此而得到提升,学习效果会得到提升,知识将得到更好的传播。
在商业方面我们能做的也是令人惊异的,大数据可以为顾客提供更高的透明度。在顾客得到实惠的同时,商家也将从中获得丰厚的利益。在这个系统中,低效率被改变了,我们对于事物的作用机制有了更深的了解。而从社会这个大方面上看,我们可以提升我们的生活方式、生活质量、和谐程度,从而降低个人在群体中所面临的风险。
大数据的使用有太多种方式,因此没有任何一个方面不会被囊括,没有任何一个方面不会被改变。
大数据和你有什么关系
一听“大数据”这个词你会想到什么?“高大上”、“时髦”、“高冷”、“上档次”……
那听到“巨蟹座”、“胖子”、“妈妈”你又会想到什么?国美会员部门说,他们共同的特征,是都爱买秋裤。他们用的分析方法,就是大数据。
大数据的营销部门是一把筛子。国美的会员数接近1.6亿人,海量的数据给了国美的会员营销部门足够大的舞台,而他们的工作就是从中筛选有用的信息。就说“双十一”前夕吧,国美的会员营销部门庭若市,各个事业部的营销团队都希望能够获得最新的用户消费习惯,为大促销提供策略支持。
就比如购买油烟机、灶具的用户大都用于新房装修,那他们近期很可能再购买空调;一年前买过高端手机的用户,一年后更换手机的几率很高;30天左右,女性用户的卫生巾差不多又该买了……这些规律性的东西不是主观想出来的,而是通过大数据“筛”出的结论。找到规律之后,国美的会员部门会建立数据模型,而每一个数据模型建成之后还将经历持续的更新、迭代,不断适应用户的变化。可以说,谁的数据模型越完善越细致,提供的情报就越准确、越有价值。
目标用户的购物习惯了若指掌,事业部制定促销政策就能有的放矢。之后,会员部门再通过信息推送,精准营销因此水到渠成。马上就是“双十一”了,用户的消费欲望被空前释放,但机会永远只会留给有准备的人。国美的大数据中心早已开始行动了。
大数据系统是一个英式管家。只要用户登录国美易购的网页,它的大数据系统就会开始为你贴身服务,尝试推送可能符合你心意的商品信息,尽量减少对你的打扰。如果你没买也没关系,只要你感兴趣的商品降价了,到货了,“管家”将会第一时间自动给你推送一条信息,提醒你一切都已安排妥当,主人常回家看看。这种管家式的服务能力是大数据营销的常用手段,对于提高用户的购买率有很大的帮助。据国美会员营销部门介绍,在一次手机品类的大促销活动中,大数据的跟踪功能实现了高达60%的用户转化率。
大数据系统还是“算命先生”。前面提到,国美的会员部门整天就在研究商品特性、用户行为。对于易耗品,比如卫生巾、奶粉、净水滤芯等产品的消耗周期,国美的大数据系统已经了然于心。用户购买后,系统会自动计算出这些易耗品是不是快用完了,进而贴心地推送信息,及时提醒用户进行更换。这种算命式的产品推荐让很多用户惊喜。
看到这里,可能你会觉得大数据是一门技术,只要掌握了技术,并不断地更新系统就万事大吉了。然而,细节决定成败,大数据营销还需更多的人文关怀。
生活在垃圾信息横飞的年代,每天都被各种信息骚扰,信息推送得再准,人家把你的信息删了等于啥也没做。而国美的会员部门除了研究顾客想要买什么,还得研究用户喜欢用什么方式接收信息。“如果用户用PC、PAD购物多,我们就给他发邮件;如果用户爱用移动端,我们就考虑短信、微信推送。我们每次只通过一个渠道推送信息,不去重复骚扰用户。”国美会员部门负责人说道。除了推送渠道的选择,每一条文案也是根据不同用户的特点量身定制的,有时候卖萌也是必要的。信息准、时机准、渠道准是国美大数据营销的绝活儿。
大数据营销把我们都变懒了,买东西不再漫无目地想了。电影《购物狂》里刘青云扮演的精神病医生要是天天来卖场,选择恐惧症估计早就治好了。