从工业时代到信息时代再到DT时代,技术力量不断推动人类创造新的世界。以互联网、大数据、云计算为代表的第三次科技革命对世界的影响已经远远超出了传统的改善生活条件、提升生产力的范畴,而是对既有生产方式、生活方式和思维方式产生了颠覆性变革。
农业社会,土地是核心资源;以机器的发明及运用为标志的工业时代,核心资源转为能源;在代表性象征为“计算机”的信息时代,核心资源变更为信息;而进入DT时代,大数据成为一个国家最重要的战略资源。
从数据到“数聚”、从解构到重构、从多维到共享,块数据社会、慢数据决策和流数据价值三位一体,标志着大数据时代的真正到来。
块数据社会
大数据时代真正到来的标志
大数据正在对社会生产生活的各个层面产生巨大而持久的影响,政府、企业、个体都在大数据浪潮中享受大数据带来的裨益。但到目前为止,人类形成的大数据,更多的是以领域、行业为单位,往往是彼此割裂、互不相通的数据。由大数据战略重点实验室推出的《块数据》一书中,将这些数据定义成“条数据”。相对于条数据的概念,该书创造性地提出“块数据”的概念——一种以一个物理空间或者行政区域为基础形成的涉及人、事、物等各类数据的总和,相当于将各类“条数据”解构、交叉、融合。它可以挖掘出更高、更多的数据价值。
块数据的产生,将使人类在大数据领域初步探索并逐步形成条数据的基础上,形成条数据和块数据的融合式发展态势。可以说,这种发展潮流将给我们的时代带来颠覆性的变革,也标志着大数据时代的真正到来。
块数据的多维聚合
在块数据的概念框架下,块数据是数据的集合,包括:点数据(单点数据、多点数据)、条数据(单条数据、多条数据)、面数据(单一层面、多个层面),块数据是点线面数据的总和及组构。人的数据、物的数据以及人与物、物与物的关系数据,构成了各种活动和事件的数据。
开放、共享、连接是块数据形成的基本机制,在一个个“块”内形成开放、共享、连接的块数据,再把一个个块数据开放、共享、连接起来,就会产生更大的块数据网状结构。例如,在社区,通过智慧社区建设,能建立起社区居民、家庭和居委会的数据采集和社交网络平台,它能够采集居民、家庭、楼宇的基本数据,也能够汇集物业、民政、医疗、养老、公安、民政、文化、教育等各个领域的数据,还能够聚合社区金融、超市、农产品供应等商务数据,就会形成一个共享、开放的社区块数据。
块数据的产生,打破了传统的信息不对称以及物理区域、行业领域对信息流动的限制,通过对不同类型、不同来源信息的集成、挖掘、清洗,极大地改变了信息的生产、传播、加工和组织方式,进而给各个行业的创新发展带来新的驱动力,推动各类产业彻底变革和再造。
块数据就像一个计算机的主板,它建立起了一个开放、共享、连接的数据基地,而各个行业和部门的条数据就像一个个可插可拔的板卡,它们只有融合和集成到主板上,才能发挥数据资产真正的功效。加快各个行业云的应用示范,通过跨部门、跨行业的政务云、民生云、产业云、环保云和文化云等共享工程示范,建设起行业应用云平台,能推动计算、应用和数据资源从“条”到“块”上的融合与集聚。
“大数据×”:块数据的解构与重构
从物理上看,由“条”到“块”,是一个维度增加的过程。块数据是一个立体多维的结构,那么构成块数据的各个维度之间,又是如何连接、如何聚合的呢?2014年,英特尔中国研究院院长吴甘沙提出了一个“大数据×”的概念,相当于大数据乘以各行各业。例如,金融数据和电商数据碰撞在一起,就产生了像小微贷款那样的互联网金融;电信数据和政府数据相结合,可以产生人口统计学方面的价值,帮助城市规划人们居住、工作、娱乐的场所;金融数据和医学数据在一起,可以发现诸如骗保类型等问题领域;物流数据和电商数据凑在一块,可以了解各个经济子领域的运行情况;物流数据和金融数据结合产生供应链金融,而金融数据和农业数据结合,可以在每一块农田上建立微气象模型,可以预测灾害,帮助农民保险和理赔。
“大数据×”具有以下几个明显的特性:
第一,聚合效应。构成块数据的各个维度数据之间,不仅仅是物理意义上的汇合,更是化学意义上的变化。正如物理变化是物质的状态改变,不改变分子种类,而化学反应是涉及分子、原子范围内有新物质生成的变化一样,块数据内的多维度数据聚合是直接作用于最基础的元数据单元,融合后会产生“1+1>;2”的聚合效应。
第二,乘法效应。各条块数据在进行汇聚的时候,有可能出现乘法模式和加法模式两种情况。块数据中条块聚合主要是按照乘法模式进行的。
两者之间的差异主要是:乘法模式是将影响事件发展结果的各个要素进行整体思考,找出它们之间的逻辑关联,然后去改善每一个环节中有关联的内容;加法模式的最大局限就是感觉到缺什么就添加什么,每个要素之间的独立性被放大,与其他要素之间的关联性被掩盖,缺乏决策的全局观、整体性和逻辑性,产生的结果是1+1=2,2+1=3,3+1=4……100+1=101,随着次数的增加,每一次努力带来的成果所占的比重都越来越小。
再比如,影响某一件事情结果的关键要素有8个,每个要素的现状都假设系数为1,那么1a×1b×1c×1d×1e×1f×1g×1h=1z,这是当前的结果;如果通过一次系统的改善,每个环节都进步一点,假设系数提高到1.1,我们再看看结果会如何?1.1a×1.1b×1.1c×1.1d×1.1e×1.1f×1.1g×1.1h≈2z,这是改善后的结果,“效果倍增”的雏形已然出现。
从以上内容可知,“大数据×”中乘法效应的特征包含两层意思:一方面,从关系的着眼点看,“加法模式”的主要特征就是强调“要素”的完整性,而“乘法模式”则是在强调要素完整性的基础上,更注重要素之间的关联所产生的“效能”;另一方面,从叠加的效果看,随着次数的增加,“加法模式”中每一次努力带来的成果所占的比重都越来越小,而“乘法模式”则会出现几何级数增长的形态。
第三,外部效应。外部效应又称为溢出效应、外部影响或外差效应,指一个主体的行动和决策使另一个主体受益的情况。对于块数据中的各主体来说,数据的生产方和受益方不完全重合,在“大数据×”的作用下,数据价值实现有效流动与配置。
慢数据决策
在2014年百度联盟峰会上,李彦宏提出了一个新概念——慢数据:有价值的数据,不是无用的信息爆炸,而是有价值的慢数据,可以预测个性化信息的数据。
所谓“慢”,就是要沉下心来,把大数据由重变轻,从粗放到精细,耐心做好数据的跟踪、挖掘工作。这样的慢数据可以告诉你一些真正有价值的信息,也许不会立刻告诉你,但是坚持做下去,就会有价值。
变与不变之间
什么叫慢数据?慢数据就是看起来变化缓慢,但是实际上具有深刻影响力的数据。比如说为什么海上会有波浪,可能有人说,因为有风,无风不起浪。其实海上有波浪,最根本的原因是因为月亮。月亮挂在天上几十亿年没有变过,但是月球引力带来了潮汐现象,在海上产生了潮涨潮落。
我们可以归纳,慢数据有如下特征:
第一,慢数据是决定性的数据。它是大数据集合中具有核心价值的、代表规律性变化的数据。慢数据的概念,来源于“协同学”中对慢变量的描述。慢变量是对应于快变量的概念。两类变量中,快变量是大量的,而慢变量是少数的。最终将形成少数慢变量支配大量快变量,或大量快变量伺服少数慢变量的情形。快变量犹如稍纵即逝的事物,不会左右系统演化的进程。慢变量则是系统演化的方向、途径和目的,主宰着系统演化的命运,支配着快变量的行为。[2]由此可知,大数据集合中,慢数据是数量稀少、具有支配地位、决定系统命运的数据。
第二,慢数据是基石型数据。正如李克强总理在2015年2月发表于《求是》杂志的一篇文章中所描述的,“农为邦本,农业现代化是国家现代化的基础和支撑。由于受自然条件影响大,又要从外部导入现代要素,农业现代化的制约因素更多、过程更复杂,是现代化中的‘慢变量’,更是‘关键变量’。农业现代化的状况如何,很大程度上决定着整个国家现代化的进程”。[3]慢数据是影响系统发展的基础性、关键性数据。
第三,慢数据是缓慢变化的数据。“协同学”在系统的不均衡性中发现了慢变量和快变量的差别。有的矛盾很快衰减消失,有的几乎不衰减,可以长久地起作用。慢数据的变化缓慢,对它的观测与挖掘也就需要较为漫长的过程。例如李彦宏曾经提到的例子:一个中医,可能通过很长时间跨度的数据跟踪,研究出一些指标,才能确定出哪些病与哪些指标相关。在此之后,通过对相关指标的记录跟踪,就可以提前预知人的健康状况。