登陆注册
3371700000003

第3章 认识大数据的基本常识(2)

这当然不是死而复生,而是一个大数据时代的奇迹。如果顺着这个剧情设想,我们不难做出预测,在未来,现在不能数据化的东西都可以数据化,直到最后一切都可以数据化,包括一个人、一个世界。

这个故事到后来发展到玛莎订购了一个具有艾什特征的机器人,然后发现机器人毕竟只是机器人,没有艾什的灵魂,最终玛莎放弃了这个机器人。导演似乎是要告诉我们,科技到任何时候都无法代替一个真正的人。可是,灵魂到底是什么?不就是说机器人还不够像艾什吗?那也只是因为艾什留下的数据还不够大,如果艾什从出生到车祸死去前的所有行为特征都被采集到了,根据这个采集到的大数据定制出的艾什和真正的艾什又有何不同呢?

所以,凡事皆可量化。只要我们能够找到观察问题的方式,并从一个新的角度去衡量它,不管从这个新的角度衡量它到底精准度如何,只要它能让我们知道得比以前更多,那么它就是一种可行的量化方法。实际上,对那些看似不可量化的东西,人们总能找到相对简单的量化方法。

1938年诺贝尔物理学奖得主、著名的物理学家恩里科·费米在使用各种高明技巧方面很有天分,在量化工作方面也是如此。

很多人都知道他的一些有关量化的有趣故事。

1945年7月16日,美国新墨西哥州洛斯阿拉莫斯附近的特里尼蒂沙漠进行了第一枚原子弹爆炸的试验。在其他科学家对量化爆炸当量的仪器进行最后校正时,作为基地观测爆炸情况的原子弹科学家之一的费米正在把一张纸撕成碎纸屑。当第一波冲击波冲过营帐时,他把碎纸屑慢慢撒向空中,观察它们在冲击波的冲击下能飘多远,最远的碎片承受的就是波的压力峰值。费米知道一条简单规则,那就是碎纸片在风力作用下的漂移和他想要量化的数据有关。据此,费米得出结论:爆炸当量至少有1万吨。这应该是一条新闻,因为其他观测者还没有算出这个下限。人们都在估计这次爆炸的当量,有说5000吨的,有说2000吨的,但都是非常感性的猜测,没有一个很好的估算办法去衡量,也没有其他的原子弹爆炸参数去对比,因为这是原子弹的第一次爆炸。在人们根据仪器的读数做了大量分析后,最终的计算结果为1.86万吨,这证实了费米的猜测。

在大数据时代,数据在以我们无法想象的速度增长着,有些问题是无法实现非常精确的计算的,而费米分解就为我们提供了很好的思路。我们要避免陷入不确定性及“无法”分析的泥潭,为了避免被显而易见的不确定性压倒,应该从知道的事情开始提问。评测我们已了解的事物的数量,是量化那些似乎根本不可量化的事物的重要步骤。

在未来的世界里,一切都可以数据化。一切都保存在互联网的数据库中,当你有一天需要的时候,数据库服务商能够将这些数据调出来给你,对其进行数字化。

统计学:解析大数据的工具

统计学是一门通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。通过寻找和挖掘现象,把现象变成可用数字标识的数据,并把大量数据进行汇总,从而找出事物的本质和规律。其核心思想是把大量具备一定偶然性的事件汇总,从中找出规律。因为虽然单个事件是偶然的,但是大量事件汇总就会具备一定的必然性。

在企业管理中,无论是市场的运营,还是对人的管理,如果认真观察单个客户或员工的表现,然后汇总起来分析,就会发现各种现象背后的规律。所以说,大数据时代,一定离不开统计学,它是管理数据的最有用的工具。

统计学的概念最早出现在古希腊的亚里士多德时期,最初的用途是计算各个城邦王国的经济和居民状况等社会经济问题。

现在,统计学被广泛应用于国家管理、企业运营、科学研究各个不同领域。以统计学在社会中的作用来看,其发展经历了三个阶段。

1.城邦政情

有观点认为,古希腊亚里士多德撰写的“城邦政情”是最早应用统计学方法的记录。公元前8世纪,古希腊建立了很多以城邦为基础的国家。主张科学与数学管理的亚里士多德,为了抵御波斯帝国的入侵,对希腊各城邦的人口、军队、经济、粮食等方面进行了统计,来分析希腊抵抗外来入侵的能力。这种方法很快在欧亚地区流传开来,到了17世纪,正式发展成为现代意义的统计学。

2.政治算术

“政治算术”的特点是,统计方法与数学计算、推理方法开始结合,分析社会经济问题的方式,更加注重运用定量分析方法。延续至今,“城邦政情”已经演变成对国家和社会经济、社会发展的统计,现在大家经常听到的GDP、CPI、基尼系数就属于统计学的重要工作。

以基尼系数为例,基尼系数为意大利经济学家基尼于1922年提出的,根据劳伦茨曲线所定义的判断收入分配公平程度的指标。其比例数值在0和1之间,越接近0就表明收入分配越趋向平等;反之,收入分配则越趋向不平等。根据长期的数据统计发现,如果某个国家基尼系数超过0.4,则意味着贫富差距较大,社会上也会存在不稳定的因素,甚至会出现失业、动乱、罢工等危机事件。而当基尼系数达到或超出0.6时,则表示收入相差悬殊。

3.大数据时代

随着计算机和现代检测技术的发展,提取数据越来越容易。

应用计算机技术,我们可以轻易统计出一个银行每天的客流量和业务办理情况。同时,我们还可以快速把多个银行的信息汇总在一起分析。应用软件技术,可以根据客户的身份信息快速转换为年龄、地址等信息,每个业务或客户又可以快速添加很多信息标签。这种情况下每个企业都可以积累庞大的数据,而这些数据又可以通过网络和检索网站汇总为更大的数据。于是,“大数据”的概念随之出现,统计学也随之被重用。

大数据用于形容那些数量庞大到无法用人工,甚至用简单的计算机软件进行处理的海量数据。比如,商场一客户的购买信息,还有搜索网站上众多网民对于某词条的查询记录,当然也包括全国性的人口普查信息。这些海量信息的出现,使得管理者从过去单纯分析销售额、客户成交率,转变为可以分别针对不同年龄、不同性别、不同地区的客户来计算成交率。

检测技术还可以越来越方便地统计温度、压力、湿度、亮度、粉尘颗粒等信息,从而积累大量的数据,用于分析人们在不同条件下的行为变化。比如,据中国互联网络信息中心统计,截至2012年12月底,我国网民规模达6亿人,普及率为43%,较2011年底提升4%;我国手机网民规模为4亿人,较上年底增加约6000多万人;2012年70.6%的网民通过台式电脑上网,相比上年底下降了近3个百分点;手机上网的比例保持较快增速,从69.3%上升至74.5%。另外,百度也通过统计得出结论,2012年网民上网活跃时间依次为:20∶00~21∶00(6.53%),21∶00~22∶00(6.44%),16∶00~17∶00(6.20%),19∶00~20∶00(6.13%),15∶00~16∶00(6.09%)。晚饭后的3个小时(19∶00~22∶00)依然是网民最活跃的时间段。

大数据现在也成为另一种概念,也就是用大量的数据信息进行统计,从看似没有关联的事物中获取有价值的规律。京东商城的老总刘强东通过统计发现:只有女性用户超过一半,才有机会赚钱。秘密在于,男人买的东西都是毛利率“超低”的产品,而女人不同,比如服装、鞋帽、家居和化妆品等都是高毛利的。他表示:“我们希望做的是一个大型综合购物平台。如果这么一个平台只有男人,没有女人,那这个平台就是有缺陷的……”

所有这些,都离不开统计学。所以说,大数据时代,我们离不开统计学,否则,大数据时代的建立和数据的实际运用就是一场空谈。

数据大小怎么算

人们发现,大数据的主要特点为数据量大(Volume)、数据类别复杂(Variety)、数据处理速度快(Velocity)以及数据真实性高(Veracity),合起来被称为4V。

大数据中的数据量非常巨大,而且这庞大的数据之中,不仅仅包括结构化数据,如数字、符号等数据,还包括非结构化数据,如文本、图像、声音、视频等数据。这使得大数据的量化很难利用传统的计量方式去完成。大数据,顾名思义,一定是一个巨大的数据,那么,它的大小怎么算呢,用什么去量化呢?

我们在生活中接触比较多的是各类电子文档和影音资料,比如一个10万字的TXT文档大约200K,一首未经过压缩的APE格式歌曲大约30M,一张CD的容量大约为700M,一张普通DVD的容量大约为4.3G……K、M、G这些是表示文件大小的单位,我们一般比较熟悉。可是,很少有人听说过T、P、E、Z、Y、D和N等单位。

这些单位我们不常遇到,但是在大数据里十分常见。大数据又叫海量数据,光从名字看就知道数据的规模之大了,用一般的计量单位不是很方便。现在,个人、企业、政府手中的数据每天都海量产生,不断地爆发着。由于这些数据量是如此之大,已经不是以我们所熟知的多少G和T(约1000G)为单位来衡量,而是以P(约1000T)、E(约100万T)或Z(约10亿T)为计量单位的。

那么,这些单位之间存在什么关系呢?它们之间如何换算呢?

在十进制的世界里,人们用以记录数据的数字符号有10个,分别是从0到9,数数的方式是0、1、2、3、4、5、6、7、8、9、10、11、12、13……而在计算机里,使用的是二进制,记录数据的符号只有0和1,数数的方式是0、01、10、11、100、101、110、111、1000……二进制数系统中,每个0或1就是一个位(bit),8bit为1Byte,称为1字节。字节是计算机文件大小的基本计算单位。一个英文字母占用一个字节,一个汉字占用两个字节。

按照从小到大的顺序,单位分别为:bit(比特)、Byte(字节)、KB(千字节)、MB(兆字节)、GB、TB、PB、EB、ZB、YB、DB、NB。从KB到NB,人们习惯省略后面的“B”而直接用“多少K”,或“多少N”这样的说法。

它们按照进率1024(即210)来计算:

1Byte=8bit

1KB=1024Bytes

1MB=1024KB=1048576Bytes

1GB=1024MB=1048576KB=1073741824Bytes

1TB=1024GB=1048576MB=1073741824KB=1099511627776Bytes

1PB=1024TB=1048576GB=1125899906842624Bytes

1EB=1024PB=1048576TB=1152921504606846976Bytes

1ZB=1024EB=1180591620717411303424Bytes

1YB=1024ZB=1208925819614629174706176Bytes

1DB=1024YB=1237940039285380274899124224Bytes

1NB=1024DB=1267650600228229401496703205376Bytes

越到后面看上去越像天文数字,我们似乎没有办法衡量到它们到底有多大。

百度公司对此给出了更形象的描述:百度新首页导航每天就要从超过1.5PB的数据中进行挖掘,这些数据如果打印出来将超过5000亿张A4纸。这些纸全部接起来超过4万千米高,接近地球同步卫星轨道,平铺可以铺满海南岛。而2020年新增的数字信息成长幅度将是2009年的近45倍。如今,只需两天就能创造出自文明诞生以来到2003年所产生的数据总量。

同类推荐
  • 台湾往事:台湾经济改革故事(1949~1960)

    台湾往事:台湾经济改革故事(1949~1960)

    《台湾往事:台湾经济改革简史(1949-1960)》是台湾知名学者郭岱君撰写的一部关于台湾20世纪50年代经济转型的专著。她参用现存于斯坦福大学胡佛研究院的蒋介石日记、国民党党史数据(微缩胶卷)以及几位国民党领导人物的个人数据,再加上作者对当年参与经济建设的老兵的口述访问得到的宝贵史料,让这段鲜为人知的故事浮出水面。许多当年在台湾发生的经济问题,正在今日的中国政经舞台上扮演。例探索台湾经济转型的秘诀,对中国大陆的深化改革具有重要的启示价值。
  • 金融理论与实践若干问题研究

    金融理论与实践若干问题研究

    沐浴着中国经济金融改革开放的春风,宁夏金融学会于1981年8月诞生,至今走过了30个春秋。30年来,宁夏金融学会在中国金融学会、自治区社科联的指导下,在主管单位中国人民银行银川中心支行的领导和支持下,始终秉承“服务地方经济金融改革发展”的宗旨,励精图治,艰苦奋斗,团结和依靠广大会员,潜心致力于科研工作和学术活动,积极培养青年研究人才,充分发挥在金融研究与学术交流中的组织和推动作用。"
  • 中国大趋势4:中国经济未来十年

    中国大趋势4:中国经济未来十年

    这是一部战略主义作品。本书以世界经济视野为基础,从“大经济”的角度,全书由几十个有机连贯的“中国之问”一气呵成,几乎涵盖了中国经济基本面、政治与经济的决定关系、经济国防、崛起模式等几大方面差不多所有关系到中国发展前途的战略性问题。读者从每一节中都能感受到强烈的中国发展脉搏:世界处在什么时代?持续三十多年的中国奇迹是否面临拐点?世界留给中国的战略机遇期还有多久?中国是持续崛起还是走向崩盘?哈耶克主义是拯救中国的良方吗?广东模式和重庆模式谁更代表着未来的方向,“大政府”是通往奴役之路,还是幸福之路?中国如何才能在世界大格局中实现突围?
  • 管理:下一个50年

    管理:下一个50年

    《管理--下一个50年》以管理:下一个50年为主题,文章包括未来50年的管理思维、战略师需要什么:智者的思想碰撞、从生产力角度看增长前景、经济增长前景展望:罗伯特·索洛访谈录等。作者为麦肯锡全球各分支机构的董事和顾问等。
  • 每天读一点经济学常识

    每天读一点经济学常识

    这是一本让你生活得更睿智的经济学通俗读物,妙趣横生的经济学课堂,人人都能看懂的经济学!经济学本身就是有趣的,人类的生活同样充满神秘。在这个无孔不入的商品社会,我们无时无刻不在和经济发生关系,逃避是不可能的,只有多学习一些经济学知识,才能更好地把握经济的脉搏,让自己的生活变得更轻松!
热门推荐
  • 盛世贵妻

    盛世贵妻

    传闻她痴笨如傻,泼如无赖;传闻他才华横溢,俊朗无双。一朝圣旨,奉命成婚,大婚当日,她出尽洋相,未拜堂便被直接撵走。明里她粗鄙不堪,是右相痴傻长女,冀王府的痴笨王妃。暗里她是神医妙手,也是柳州第一‘公子’,一心想摆脱与皇家的牵扯,却和离不成,反与自己的丈夫‘结拜’。知她真实身份,他震惊,愤怒,满心欢喜,却痛苦不堪。“你明知我一直在找你,你明明就在我身边,是我锗天予的妻子,却要骗我写下休书。司如影,你好狠的心!”“可我不想做你的妻子。”后来,她只知,她是他烙在心上的人,逃不掉,也躲不开。
  • 大明影侯

    大明影侯

    知天命,逆天难。平逆贼,荡天下。帝国荣耀,自今日起。951328264,作者粉丝交流群,欢迎。
  • 巴什卡小铺(二)

    巴什卡小铺(二)

    1980年10月的一天,我上班来到办公室,按照多年的习惯,坐在写字台后的椅子上,马上打开了收发员早已摆放在案头的报纸,这是一份当天的《哈尔滨日报》。当时的报纸,不像现在有几十版,平日只有四版。人们看报,也不像现在,只浏览一下大标题,而是从头到尾,几乎每一篇文字都会仔细看。那天,四版报面很快看完了,工作还没开始,我就开始看中缝里登的广告。忽然,一则公证处的公告引起了我的注意:兹公告。无国籍俄罗斯人巴什卡·伊万诺芙娜,因病在外侨养老院去世,享年90岁,遗有沙曼街37号房产一处。
  • 妖孽丞相入我怀

    妖孽丞相入我怀

    【新书《穿书后我成了林先生的黑月光》,欢迎大家跳坑d(?д??)】大宁丞相安自忠,你祸害朝纲,你祸害本公主,你女装大佬,你有毒!
  • 慈禧全传之伟大的统治者慈禧太后(第三部)

    慈禧全传之伟大的统治者慈禧太后(第三部)

    我到达中国开始在《香港孖剌西报》的工作时,义和团运动已经发展到顶峰了。从外国记者和中国沿海居民的口中,我常常可以听到诸如“慈禧太后是个嗜杀成性的老泼妇”或“慈禧太后是一个杀人女魔王”的话语。时代在不断变革中前进。近年来,我常常从美国人口中听到对慈禧的赞美。美国人毫不吝啬地给予慈禧太后以热情的赞美,我承认,我并不能解释清楚其中的缘由,但是这并不能否认欧洲人对慈禧太后的厌恶。
  • 金箓斋三洞赞咏仪

    金箓斋三洞赞咏仪

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 跳魔名曰不知道

    跳魔名曰不知道

    《冰珀封冻术》简直是本微缩东方鬼怪故事集。现实与传说交织,罪与罚的激荡,光怪陆离的终极解密尽在七人团的话语之中,恶魔就在身边,究竟是人心的妖魔,还是妖怪的江湖?“弹簧腿杰克”的历史真相为何?现实案件又有怎样的隐秘?蘑菇小屋内一老一少,你问我答;一壶清茶,抽丝剥茧。
  • 工程机械那些年

    工程机械那些年

    这是一本要耐着性子看完的小说。故事跨度有三十多年,讲述一个由计划经济到市场经济、由青涩到老辣但最终不甚成功的工程机械推销员的工作和生活。他是这个时代微不足道的一份子,是个小人物;但这个时代又随着岁月的更迭给他烙上了不同的印记,于是,故事就来了……最后声明:本书里的工程机械品牌都是真实的,但与之相连的人和事请勿对号入座。
  • 医心方

    医心方

    《医心方》是日本的国宝,是中日医学交流史上的一座丰碑。撰者丹波康赖(912-995)系东汉灵帝之后入籍日本的阿留王的八世孙,他医术精湛,被赐姓丹波,累迁针博士、左卫门佐。他于公元984年撰成《医心方》30卷,这是日本现存最早的医书,成为后来宫庭医学的秘典,奠定了医家丹波氏不可动摇的历史地位。该书荟集中国医学典籍达204种,其中大半在中国亡佚,集当时日本汉医之大成,内容广及医学的各个领域,乃至于养生、房中(性医学),后者则导致它在中国大陆被视为准禁书达几十年。
  • 徽商之踏雪寻梅

    徽商之踏雪寻梅

    皖南小镇,谢、商两家世代为商,青梅竹马,少年相爱,原以可享现世安稳,却未曾料烽烟起,战火燎,时局动荡,强敌在侧,避无可避……清晏,终有一天,你会明白我今日的选择,今日,我尚无法许你岁月静好,他日,我定会让你安享太平盛世。