(新书连载)蓝云:核心数据永远稀缺,呼唤击打最有力的“甜点”

2018年06月14日08:38  
 

    《从1到π———大数据与治理现代化》,蓝云编著,南方日报出版社2017年5月版。

  ■蓝云

  佛山顺德信理咨询公司董事长李少魁不但是名优秀的企业家,还是一位民间经济学家,出版了多本经济学专著。他长时间参与、关注广东及中国的网络问政、民间智库发展事业。近年几次见面,他几乎每次都会问我“什么是大数据”。我的回答综合起来是这样的:

  1、大数据的“大”是相对的。“大”是一个形容词,具有相对性。姚明身高2.26米,与他相比,2米大汉也是矮人。50年后我们再谈大数据,会有另外一个标准。而对原始人来说,到“3”就是数量很多了。在大数据概念流行之前,在金融、气象、经济学、军事、航空航天等领域,早就采用了类似大数据的研究手段。

     2、大数据是摩尔定律的必然结果。摩尔定律带来的存储技术的快速提高、存储成本的快速降低,客观上是信息、数据大爆炸的最大推手。我们一起来了解一些二进制体系下的数据基本换算单位,记住“兆吉太,拍艾泽”六个关键字就可以了。大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”(TB)为单位。Twitter每天产生7TB的数据,Facebook为10TB。一个城市的视频监控镜头约为50万个,一个摄像头一个小时的数据量就是几个G,每天的视频采集数量在3PB左右。2020年全球将拥有35ZB的数据量。

数据基本换算单位

1B 字节   8b(bit位)
1KB 千字节 2的10次方 1024B
1MB 兆字节 2的20次方 1024KB
1GB 吉字节 2的30次方 1024MB
1TB 太字节 2的40次方 1024GB
1PB 拍字节 2的50次方 1024TB
1EB 艾字节 2的60次方 1024PB
1ZB 泽字节 2的70次方 1024EB

 

  3、云计算是大数据的算力基础。没有云计算的诞生,就不可能有大数据。要准确理解大数据,必须从云计算说起。2006年8月9日,谷歌CEO埃里克·施密特在搜索引擎大会上首次提出“云计算”(Cloud Computing)的概念。而后,亚马逊公司于2006年8月24日推出了弹性云(Elastic Compute Cloud)的公共版本。近几年来,国内云计算能力迅速发展,百度云、阿里云、腾讯云作为互联网企业的代表,华为、浪潮作为硬件设备的代表,产业能力已经和全球领先企业并驾齐驱。这种新型的计算方式,具有如下几种重要的特征:首先是计算体系规模庞大,一般由数量惊人的计算机群构成,谷歌云计算拥有的服务器超过100万台;其次是计算成本非常低廉,企业不必自建费用高昂的数据中心,只需付出较少的采购费用,即可享受云服务商提供的专业而强大的计算能力;第三,云计算服务具有按需分配和伸缩扩展的优点,云计算系统是一个机器庞大的资源池子,用户可以随时、随地、按需灵活地购买,就像购买煤气和自来水一样便利。云计算甚至可以让普通用户体验每秒10万亿次的运算能力,有了这种能力,模拟核爆炸、预测气候演变、实现基因测序都不再困难。《本草纲目》就是典型的大数据思维产物,只是当时还没有大数据这个名词。

  4、世间万物非线性、不确定性是大数据的现实来源。让我们一起来想象一下什么叫非线性带来的“复杂”。动物园复杂吗?答案取决于你看问题的角度。你会发现动物园里有成百上千只动物,每一只都不同。你又会发现每一只动物身上有成千上万根毛发,每一根毛发都不同。你当然可以进一步描述每根毛发的复杂特性。你的结论是:动物园的复杂程度远远超过我们的想象。物理学上还有一个“不确定性原理”,该原理由海森堡于1927年提出。这个理论是说,你不可能同时知道一个粒子的位置和它的速度。这表明微观世界的粒子行为与宏观物质很不一样。该理论涉及很深刻的哲学问题,用海森堡自己的话说就是:“在因果律的陈述中,‘若确切地知道现在,就能预见未来’,所错误的并不是结论,而是前提。我们不知道现在的所有细节,是一种原则性的事情。”

  5、好戏才刚刚开始,大数据目前还只是开端。以信息物理系统(CPS)为代表的具备智能属性的产品将贯穿经济体系的各个环节,CPS实现人、物、系统的广泛互联,大数据是系统的核心和“灵魂”。无论是德国的工业4.0战略,还是美国GE的工业互联网理念,本质是正式先进制造业和大数据技术的统一体。有专家预测,到2030年每人平均有7件可穿戴设备联上互联网,那个时候的大数据才进入正赛阶段,那个时候想必更会激荡人心!我们现在要做的是,建立大数据思维,做好充足的准备。

  6、大数据的核心价值是打通,打破壁垒。浓缩贵阳众多优秀案例,由“大数据战略重点实验室”出版的《块数据》一书,也明确阐述了这一要义。人类形成的大数据,更多的是以领域、行业为单位,往往是彼此割裂、互不相通的数据,这被称为“条数据”。“块数据”是一个物理空间或者行政区域形成的涉及人、事、物各类数据的总和,相当于将各类“条数据”解构、交叉、融合的数据。它可以挖掘出数据更高、更多的价值。贵阳案例、经验,值得我们高度重视。各方数据务必要打破界限,相互融通。手握海量数据却不对外适度开放,只是“财主”,不是“富翁”,更称不上“绅士”。

     7、大数据带来了科学研究的“第四范式”。让我们来回顾一下科学发展历史上的几个重要范式及其变革。第一范式是指经验科学阶段(也就是依靠观察、直觉),18世纪以前的科学进步均属此列,其核心特征是对有限的科学对象进行观察、总结、提炼,用归纳法找出其中的科学规律,比如伽利略提出的物理学定律。第二范式是指19世纪以来的理论科学阶段,以演绎法为主,凭借科学家的智慧构建理论大厦,比如爱因斯坦的相对论、麦克斯韦方程组、量子理论、概率论等。第三范式是指20世纪以来的计算科学阶段,面对大量过于复杂的现象,归纳法和演绎法都难以满足科学需求,人类开始借助计算机的高级运算能力对复杂现象进行建模和预测,比如天气、地震、海啸、核试验、原子的运动等。然而,近几年来随着人类采集数据量的惊人增长,“摩尔定律”正在突破“第三范式”的合理性和承载力,传统的计算科学范式已经越来越无力驾驭海量的科研数据了。欧洲的大型例子对撞机、天文领域的Pan—STARRS望远镜每天产生的数据多达几千万亿字节(PB),很明显,这些数据已经突破了“第三范式”的处理极限,无法被科学家有效利用。对于这个有一个更通俗的理解,此前的科学范式更多研究的是“强关系”,现在研究的是“弱关系”,就像挖煤一样,露天的,已经挖走了,剩下的煤,在地里的更深处。在更深处挖掘时,需要更好的设备、更强的体力,同时也不排除有意外的收获,比如挖到金子。

  8、小数据时代的随机采样不行了。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨,但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏差,分析结果就会相距甚远。美国总统大选通过大数据,能够得到“小数据”所得不到的观点和结论。很多朋友了解“抽屉”原理,将三只兔子关进两个抽屉,那么必有一个抽屉里有两只或两只以上的兔子。人的头发很多,如果两个人头发的根数一样多,那是一件多么巧合的事情。但在今天的中国,至少有1万人,他们的头发根数一样多。这不过是抽屉原理的简单应用而已。人的头发一般不会超过12万根,把头发相同的人都放到一个大“抽屉”里,总共不到12万个“抽屉”。14亿人分到12万个“抽屉”里,总有一个抽屉超过1万人。你要研究头发相同的人的基本规律,那么整体样本数据就要足够大。

   9、核心数据永远稀缺,数据泛滥时代,更加呼唤击打最有力的“甜点”。科学界有这么一个评价,在所有一流的天文学家中,开普勒资质不算好,一生中犯了“许多低级的错误”,但是他有一件别人都没有的东西,就是他从老师第谷手中继承了大量的、在当时最精确的观测数据。有了这些数据,开普勒很幸运地发现了行星围绕太阳运转的轨道实际上是椭圆形的,由此他提出了三个定律,形式都非常简单,就是三句话。在网球界有一个专业术语,球拍有一个区域,那个地方接球后回球最省力,回球也最有威力,这个区域就叫“甜点”。数据泛滥时代,更加呼唤击打最有力的“甜点”数据,核心数据的价值更加宝贵。

  一千个人眼中,有一千个林黛玉。我们每一个人都可以有对大数据的认知。正是这种多维认识,增加了大数据的丰富性、有趣性。

  注:该书经作者授权刊载

  新书连载:

(责编:陈育柱、王星)