大数据和人工智能对我们的生活产生怎样的影响
分类:彩世界彩票注册平台官网

对于互联网公司的那些应用也如此,那些公司可以对每一个用户提供不同的服务,甚至做到每一次的服务都不相同。比如电商公司在用户浏览打印机或者电动牙刷时,如果发现他们在阅读产品介绍和评价,那么可能用户尚未完成购买,推荐相应的产品给用户是合理的;而当用户完成购买后,再搜索或浏览这些产品,推荐给用户打印机墨盒或电动牙刷头等耗材,就比推荐那些耐用产品本身更合理了。经常在亚马逊上购物的人对这一点会有体会,不仅不同的人看到的网页内容是不一样的,而且同一个人今天和昨天看到的内容也是不一样的,尤其是在完成一些购买行为之后。这种精细到每一次交易,甚至每一次内容展示的服务,在过去是想都不敢想的,但是靠大数据今天这已经变成了可能,而且它还代表着未来商业的趋势。

第一,世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。

2016年1月,AlphaGo战胜了人类的欧洲围棋冠军樊麾二段。2016年3月,AlphaGo再次用事实证明了它的水平已超过人类的顶级高手——它与韩国著名棋手李世石九段进行了五番比赛,结果以4:1大胜。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。

大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论到思维方式可以让过去很多难题迎刃而解。逻辑推理能力是人类特有的本领,给出原因,我们能通过逻辑推理得到结果。

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。

机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

彩世界彩票注册平台官网 1

机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

l 现有产业 大数据=新产业

相对来讲这些公司很少花大量时间和资源来寻找确定的因果关系,而是通过从大量数据中挖掘相关性,直接用于产品,因此它们给外界的感觉是产品更新非常快。

不论经济学家还是之前的托勒密、牛顿等人,他们都遵循着机械思维。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。

最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。

全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始交叉,各个维度的数据从点和线渐渐链成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。

通过上述对历次技术革命中商业模式变迁的分析,我们可以得到这样三个结论:

当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。

彩世界彩票注册平台官网 2

与金风公司面临类似情况的还有诸多的电器生产厂商。这些电器无论是高端的还是低端的,厂家只能赚到一次钱,而且由于亚洲制造业同行相互压价,利润也不可能很高。为了解决利润的问题,一些对新技术敏感的公司想到了利用大数据和移动互联网来改变商业模式。

由于收集信息的公司和提供地图服务的公司是一家,因此从数据采集、数据处理,到信息发布中间的延时微乎其微,所提供的交通路况信息要及时得多。使用过Google地图服务或者百度地图服务的人,对比六七年前,都很明显地感到了其中的差别。当然,更及时的信息可以通过分析历史数据来预测。一些科研小组和公司的研发部门,已经开始利用一个城市交通状况的历史数据,结合实时数据,预测一段时间以内(比如一个小时)该城市各条道路可能出现的交通状况,并且帮助出行者规划最好的出行路线。

微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎想对百度最大的劣势也在于数据量上。当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。

第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为“点击模型”。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。

二、大数据的重要性

大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

Google在数据上的优势,是大学和各个研究所并不具备的。即使是全球著名的汽车公司,包括丰田、大众和美国通用,也不具备如此多的数据。因此,它们虽然在自动驾驶汽车研制方面早起步几十年,但是很快就被Google超越。另外,计算机学习“经验”的速度远远比人快得多,这也是大数据多维度的优势,因此Google自动驾驶汽车的进步才能如此快。这并非说明Google的科研能力超过了过去那么多大学、研究所和公司的总和,反而是体现出大数据的威力,以及采用大数据思维的重要性。

但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

简单地讲,当时无论是做语音识别、机器翻译、图像识别,还是自然语言理解的学者,分成了界限很明确的两派,一派坚持采用传统的人工智能方法解决问题,简单来讲就是模仿人,另一派在倡导数据驱动方法。这两派在不同的领域力量不一样,在语音识别和自然语言理解领域,提倡数据驱动的派比较快地占了上风;而在图像识别和机器翻译方面,在较长时间里,数据驱动这一派处于下风。

在大数据出现之前,并非我们得不到信息直接的关联性,而是需要花费很长的时间才能收集到足够多的数据,然后再花费更长的时间来验证它,这也是过去大部分传统的企业对于细节数据的收集和处理不是很重视的原因,相比之下他们更看重经验和宏观数据。但是到了大数据时代,这些企业的观念也在慢慢转变。

虽然大家觉得计算机最终可能在国际象棋上战胜人类的冠军,但是这一天来得绝对比绝大多数人预料得要早。

大数据的时效性其实不是必需的,但是有了时效性可以做到很多过去做不到的事情,城市的智能交通管理便是一个例子。在智能手机和智能汽车出现之前,世界上的很多大城市虽然都有交通管理中心,但是它们能够得到的交通路况信息最快也有20分钟滞后。如果没有能够跟踪足够多的人出行情况的实时信息的工具,一个城市即使部署再多的采样观察点,再频繁地报告各种交通事故和拥堵的情况,整体交通路况信息的实时性也不会比2007年有多大改进。

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

他在接受母校(加州大学伯克利分校)授予他的荣誉证书时,曾经这样讲述他为什么要加入谷歌:2001年,当全球互联网泡沫破碎后,大家都在逃离这个领域,很多人从互联网行业回到了学术界。人们问我为什么在这样一个时候离开NASA(美国国家航空航天局),加入谷歌这家不大的互联网公司。我和他们讲了大萧条时期(1929-1933年)的一个故事。

全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。智能手机和互联网将继续改变世界。

全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。

容易回答的是询问事实是什么(What),什么时候(When),什么地点(Where),哪一个(Which),是谁(WHo),难回答的问题是询问原因的

当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如「虚拟现实」,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如「毕加索早期作品介绍」,需要很长的时间才能收集到「足够多的数据」来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。

2、智能手机和互联网将继续改变世界

如果人脉不够,发出的信息和获得的信息都有限,生意一定做不大。现代通信手段的本质,就是以相对低廉的成本,让人们获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓展对外连接的带宽,使得它们做生意越来越方便。

现有产业 机器智能=新产业

我们回顾过去是为了展望未来。今后,由大数据引发的智能革命也将是以一种与前面几次技术革命类似的方式展开,如果我们用两个简单的公式来概括的话,那就是:

在IT时代,唱主角的公司逐渐从制造设备的IBM、爱立信、诺基亚和惠普等公司,变成了提供软件和服务的微软、甲骨文和Google等公司。最后,商业模式的变化既有继承性,又有创新性。工业革命导致了产品需要靠推销才能卖出去,第二次工业革命导致了广告业的兴起,推销的方式从展示变成了做广告,而这两者之间是有联系的。作为创新的一方面,第二次工业革命导致了商业链的出现;到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要性突显,这是其创新性的一面。

简单地讲,当时无论是做语音识别、机器翻译、图像识别,还是自然语言理解的学者,分成了界限很明确的两派,一派坚持采用传统的人工智能方法解决问题,简单来讲就是模仿人,另一派在倡导数据驱动方法。这两派在不同的领域力量不一样,在语音识别和自然语言理解领域,提倡数据驱动的派比较快地占了上风;而在图像识别和机器翻译方面,在较长时间里,数据驱动这一派处于下风。

大数据之所以有用,是因为它除了数据量大之外,还具有其它的特征。一些数据专家将大数据的特征概成三个V,即大量(Vast),多样性(Variety)和及时性(Velocity),这种说法虽然方便记忆,但并不全面准确。一些数据没有及时性,一样可以被称为大数据。其次,多样性虽然是大数据的一个特征,但是含以上有歧义性,其中最重要的含义是多维度。

Google在数据上的优势,是大学和各个研究所并不具备的。即使是全球著名的汽车公司,包括丰田、大众和美国通用,也不具备如此多的数据。因此,它们虽然在自动驾驶汽车研制方面早起步几十年,但是很快就被Google超越。另外,计算机学习「经验」的速度远远比人快得多,这也是大数据多维度的优势,因此Google自动驾驶汽车的进步才能如此快。这并非说明Google的科研能力超过了过去那么多大学、研究所和公司的总和,反而是体现出大数据的威力,以及采用大数据思维的重要性。

但是,在能够定位的智能手机出现后,这种情况得到了根本的改变。由于智能手机足够普及并且大部分用户开放了他们的实时位置信息(符合大数据的完备性),使得做地图服务的公司,比如Google或者百度,有可能实时地得到任何一个人口密度较大的城市的人员流动信息,并且根据其流动的速度和所在的位置,很容易区分步行的人群和行进的汽车。

要说清大数据思维的重要性,需要先回顾一下自17世纪以来,一直指导我们日常做事行为的一种思维方式——机械思维。想要从“道”的层面了解大数据,而不是仅仅停留在“术”的层面,那么我们就需要了解人类认识世界方法的演变和发展过程。

要说清楚大数据思维的重要性,需要先回顾一下自17世纪以来一直指导我们曰常做事行为的先前最重要的一种思维方式一一机械思维。今天说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至「机械」本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张地汫,在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维,尽管他们嘴上谈论的是更时髦的概念。

比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来Google的10%左右陡然提升到Google的20%〜30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar)、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用Google搜索时的点击情况。

当然,有人诟病必应的这种做法是“抄”谷歌的搜索结果,其实它并没有直接抄,而是用谷歌的数据改进自己的点击模型。这种事情在中国市场上也一样,因此,搜索质量的竞争就成了浏览器或者其它客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争是技术,但更准确地讲,他们是在数据层面竞争。

先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。

彩世界彩票注册平台官网 3

那么,机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别呢?

这些其实是机械思维中积极的部分。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者可预测性)和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。没有这些确定性和因果关系,我们就无法认识世界。

在他看来,语音识别不是一个人工问题,而是一个通信问题。贾里尼克认为,人的大脑是一个信息源,从思考到找到合适的语句,再通过发音说出来,是一个编码的过程,经过媒介(声道、空气或者电话线、扬声器等)传播到听众耳朵里,是经过了一个长长的信道的信息传播问题,最后听话人把它听懂,是一个解码的过程。

当然,用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑出一种,因为全世界的人数是有限的,这也就把识别问题变成了消除不确定性的问题。

在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历“假设——求证——再假设——再求证”这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。

机械思维直接带来工业大发明的时代。蒸汽机的使用,使得在全世界一千多年里供不应求的瓷器,从此出现了供大于求的情况。再此之后,工业革命导致全世界财富迅速增长。后人这样评价牛顿和瓦特这两位英国的杰出人物:牛顿找到了开启工业革命大门的钥匙,而瓦特拿着这把钥匙开启了工业革命的大门。

图片来源:图虫创意

通过上述对历次技术革命中商业模式变迁的分析,我们可以得到这样三个结论:首先,技术革命导致商业模式的变化,尤其是新的商业模式的诞生。其次,生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。在IT时代,唱主角的公司逐渐从制造设备的IBM、爱立信、诺基亚和惠普等公司,变成了提供软件和服务的微软、甲骨文和Google等公司。最后,商业模式的变化既有继承性,又有创新性。工业革命导致了产品需要靠推销才能卖出去,第二次工业革命导致了广告业的兴起,推销的方式从展示变成了做广告,而这两者之间是有联系的。作为创新的一方面,第二次工业革命导致了商业链的出现;到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要性突显,这是其创新性的一面。

可以说,我们正在经历一场由大数据带来的技术革命,其最典型的特征就是计算机智能水平的提高,因此我们不妨把这场革命称为智能革命。当计算机的智能水平赶上甚至超过人类时,我们的社会就要发生天翻地覆的变化,这才是大数据的可怕之处。

让我们谈谈金风公司的故事。在和我进行了多次关于大数据时代商业模式的探讨后,该公司决定向IBM学习,在商业模式上做根本性的转变,主营业务从风力发电机的制造,转变成发电设备的运营和服务。当然,并非什么公司想做服务就能做得好并赚到钱,金风公司有底气转型,源于其在宏观上对全球风能市场的了解,在微观上对每一台风能发电机运营细节的了解,加上通过大数据对发电机可能出现的问题的分析,能够比一般工程公司更有效地维护发电机。至于发电机的生产,该公司只负责研制,然后将设备制造交给其他公司去做。这样一来,金风公司就在风力发电领域成功地复制了IBM服务的模式。大多数亚洲制造企业虽然在全球市场上占的份额不小,但是通常竞争的手段就是压低利润降价,最后把整个行业变得都没有利润。金风公司转型的做法,或许能给这些企业一些启发,当然如果没有大数据这样的机遇,这种转型是非常困难的。

先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

我们解决问题的方法是这样的:第一步:根据网页确定哪些用户在Google问过的复杂问题可以回答,哪些回答不了。第二步:就是把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,至于怎么挑,就依靠机器学习了。第三步:就是利用自然语言处理技术,把答案的片段合成为一个完整的段落。经过2年多的努力,使得计算机能够回答30%的复杂问题,包括“天为什么是蓝色的”、“为什么夏天比冬天热”或者“怎样烤蛋糕”之类的问题。

比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道,在各种媒体上都可以看到。

反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。

一、机器智能

由于收集信息的公司和提供地图服务的公司是一家,因此从数据采集、数据处理,到信息发布中间的延时微乎其微,所提供的交通路况信息要及时得多。使用过Google地图服务或者百度地图服务的人,对比六七年前,都很明显地感到了其中的差别。当然,更及时的信息可以通过分析历史数据来预测。一些科研小组和公司的研发部门,已经开始利用一个城市交通状况的历史数据,结合实时数据,预测一段时间以内该城市各条道路可能出现的交通状况,并且帮助出行者规划最好的出行路线。

当然,用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑出一种,因为全世界的人数是有限的,这也就把识别问题变成了消除不确定性的问题。

很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上是思维方式全面领先。

后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:

亚马逊的优势在于它拥有顾客全面的信息。比如张三上周买了一台数码相机,之前他还购买了几个玩具,同一个地址的李四前两天买了婴儿用的浴液。那么可以联想到张三和李四是一家人,他们有个出生不久的婴儿,张三买数码相机或许是为了给孩子照相。他们或许会对在线冲印照片(并做成贺年卡),或者电子相框有兴趣。如果将他们的地址和美国个人住宅信息网站zillow.com联系起来,很容易了解到他们的住房价值,进而估计出他们的收入。这些条件是沃尔玛不具备的。亚马逊的第三个优势在于它的任何市场策略都能马上实现,比如它能够随时捆绑商品,并且随时调整价格进行促销;而美国所有的实体店,调整价格都需要在晚上关门之后进行,因此即使它们数据挖掘的速度和亚马逊一样快(当然这是不可能的),在市场上的反应也跟不上亚马逊这样的电商公司。

在一般人眼里,Google是一家高科技公司,不断地研发新的技术,并且成功地将一部分技术转化成了产品。但是,它从根本上讲其实是一家数据公司。著名的机器智能专家,前Google研究院院长挪威格博士对Google的这个本质有深刻的认识。

互联网公司的争夺和大数据应用

关于大数据多维度的重要性问题,可以从两个角度来看待它。第一个视角是“互信息”,为了获得相关性通常需要多个维度的信息。比如我们要统计“央行调整利息”和“股市波动”的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的“交叉验证”,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,“空气湿度较高”和“24小时内要下雨”之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证“24小时内要下雨”这件事,那么预测的准确性就要大很多。

彩世界彩票注册平台官网 4

最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。

前面的几个例子无一不是先从大数据找到普遍规律,然后再应用于每一个具体的用户,并且影响到每一个具体的操作。以抓毒品种植和偷漏税为例,警察局或者税务局首先需要根据大数据了解用电或者纳税普遍的模式,然后要准确地估算出每一个地址正常的模式,这样就能够发现每一个异常的情况。

瓦特的成功不仅是技术的胜利,更重要的是他掌握了新的方法论——机械思维。

摩尔定律和安迪-比尔定律到了智能手机时代照样适用,我们就不赘述了。

l 现有产业 机器智能=新产业

亚马逊的优势在于它拥有顾客全面的信息。比如张三上周买了一台数码相机,之前他还购买了几个玩具,同一个地址的李四前两天买了婴儿用的浴液。那么可以联想到张三和李四是一家人,他们有个出生不久的婴儿,张三买数码相机或许是为了给孩子照相。他们或许会对在线冲印照片,或者电子相框有兴趣。如果将他们的地址和美国个人住宅信息网站zillow.com联系起来,很容易了解到他们的住房价值,进而估计出他们的收入。这些条件是沃尔玛不具备的。亚马逊的第三个优势在于它的任何市场策略都能马上实现,比如它能够随时捆绑商品,并且随时调整价格进行促销;而美国所有的实体店,调整价格都需要在晚上关门之后进行,因此即使它们数据挖掘的速度和亚马逊一样快,在市场上的反应也跟不上亚马逊这样的电商公司。

在20世纪90年代互联网兴起之后,数据的获取变得非常容易。从1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

(本文选编自《智能时代》)

很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式全面领先。

让我们谈谈金风公司的故事。在和我进行了多次关于大数据时代商业模式的探讨后,该公司决定向IBM学习,在商业模式上做根本性的转变,主营业务从风力发电机的制造,转变成发电设备的运营和服务。当然,并非什么公司想做服务就能做得好并赚到钱,金风公司有底气转型,源于其在宏观上对全球风能市场的了解,在微观上对每一台风能发电机运营细节的了解,加上通过大数据对发电机可能出现的问题的分析,能够比一般工程公司更有效地维护发电机。至于发电机的生产,该公司只负责研制,然后将设备制造交给其他公司去做。这样一来,金风公司就在风力发电领域成功地复制了IBM服务的模式。大多数亚洲制造企业虽然在全球市场上占的份额不小,但是通常竞争的手段就是压低利润降价,最后把整个行业变得都没有利润。金风公司转型的做法,或许能给这些企业一些启发,当然如果没有大数据这样的机遇,这种转型是非常困难的。

谷歌和很多互联网公司之所以能够取得成功,不仅仅是靠技术、靠数据、更是靠采用了大数据时代的方法论,或者说大数据时代思维。作为数据公司,它们在做事情的方法上有着和传统工业公司不同的思维方式:

不确定性在我们的世界里无处不在。我们经常可以看到这样一种怪现象,很多时候专家们对未来各种趋势的预测是错的,这在金融领域尤其常见。如果读者有心统计一些经济学家们对未来的看法,就会发现它们基本上是对错各一半。这并不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征,以至于我们按照传统的方法——机械论的方法难以做出准确的预测。

仔细推敲英语中bigdata这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。在有大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。

在2000年以后,由于互联网特别是后来移动互联网的出现,数据量不仅剧增,而且开始相互关联,出现了大数据的概念。科学家和工程师们发现,采用大数据的方法能够使计算机的智能水平产生飞跃,这样在很多领域计算机将获得比人类智能更高的智能。

前面的几个例子无一不是先从大数据找到普遍规律,然后再应用于每一个具体的用户,并且影响到每一个具体的操作。以抓毒品种植和偷漏税为例,警察局或者税务局首先需要根据大数据了解用电或者纳税普遍的模式,然后要准确地估算出每一个地址正常的模式,这样就能够发现每一个异常的情况。

这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语(甚至是多语种)对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。

在大萧条时,有些人买了银行的股票,后来都发了财。事后人们问那些买了银行的股票的人为什么在银行如此糟糕时敢买他们的股票,那些投资人讲,“因为全世界的钱都在它们那里。”所以,加入Google的决定并不难做,因为全世界的数据都在Google那里。

在方法论的层面,大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。

l 摩尔定律和安迪-比尔定律到了智能手机时代照样适用,我们就不赘述了。

但是,到了工业革命之后,情况就大不相同了。马克思曾经说过:“资产阶级在其不到100年的阶级统治中所创造的生产力,比过去一切时代创造的全部生产力还要多,还要大。”相比工业革命,任何王侯将相所谓的丰功伟绩都显得微不足道。

当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。

不确定性在我们的世界里无处不在。我们经常可以看到这样一种怪现象,很多时候专家们对未来各种趋势的预测是错的,这在金融领域尤其常见。如果读者有心统计一些经济学家们对未来的看法,就会发现它们基本上是对错各一半。这并不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征,以至于我们按照传统的方法——机械论的方法难以做出准确的预测。

科学家们认为,如果计算机实现了下面几件事中的一件,就可以认为它有图灵所说的那种智能:1. 语音识别。2. 机器翻译。3. 文本的自动摘要或者写作。4. 战胜人类的国际象棋冠军。5. 自动回答问题。今天,计算机已经做到了上述这几件事情,有些时候还超额完成了任务,比如在下棋方面,不仅战胜了国际象棋的世界冠军,而且还战胜了围棋的世界冠军,后者的难度比前者高出6~8个数量级。当然,人类走到这一步并非一帆风顺,而是先走了十几年的弯路。

这些其实是机械思维中积极的部分。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。没有这些确定性和因果关系,我们就无法认识世界。

与金风公司面临类似情况的还有诸多的电器生产厂商。这些电器无论是高端的还是低端的,厂家只能赚到一次钱,而且由于亚洲制造业同行相互压价,利润也不可能很高。为了解决利润的问题,一些对新技术敏感的公司想到了利用大数据和移动互联网来改变商业模式。

通常我们把问题归结为7类:“是什么(What),什么时候(When),什么地点(Where),哪一个(Which),是谁(WHo)为什么(Why)和怎么做(How)。

今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为「点击模型」。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。

4、大数据的本质

思维方式和方法远不如方法论对科学的发展至关重要,东方的文明长期以来在技术上领先于西方,但是在科学体系的建立上远远落后于西方,关键是输在方法论上。

计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。

“为什么”(Why)问题,以及询问过程的“怎么做”(How)问题。全世界的自然语言处理专家和机器智能转接对这两类问题的机器自动回答研究了很多年,直到2012年,都没有找到好的方法。

现有产业 大数据=新产业

第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。

在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

彩世界彩票注册平台官网 5

《浪潮之巅》作者、元丰资本创始人、腾讯原副总裁、Google资深研究员吴军博士

这时,各公司的商业策略和产品策略就都围绕着获取数据,建立关联性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来谷歌10%左右陡然提升到谷歌的20%~30%,点击模型估计得准确了许多,搜索质量迅速提高。

这个时代属于大数据

这样一来,如果一家公司能够在浏览器市场占很大的份额,即使它的搜索量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点击数据,一家搜索引擎公司可以快速改进长尾搜索的质量。当然,有人诟病必应的这种做法是“抄”Google的搜索结果,其实它并没有直接抄,而是用Google的数据改进自己的点击模型。这种事情在中国市场上也是一样,因此,搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。

机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别?我们不妨把目光投向2000年前。

数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。

后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:

从1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历「假设——求证——再假设——再求证」这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。

6、现有产业 摩尔定律=新产业

新书发布之际,让我们一起重温《智能时代》的经典内容。

仔细推敲英语中bigdata这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。在有大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。

比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道,在各种媒体上都可以看到。

机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。

大数据更是一种思维方式革命

第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。

在信息论中,还有香农第二定律,就是信息的传播速率不可能超过信道的容量,这和我们的现实生活也是契合的。在香农提出他的第二定律之后,人类就开始有意识地不断扩展带宽。

现有产业 摩尔定律=新产业

对于互联网公司的那些应用也如此,那些公司可以对每一个用户提供不同的服务,甚至做到每一次的服务都不相同。比如电商公司在用户浏览打印机或者电动牙刷时,如果发现他们在阅读产品介绍和评价,那么可能用户尚未完成购买,推荐相应的产品给用户是合理的;而当用户完成购买后,再搜索或浏览这些产品,推荐给用户打印机墨盒或电动牙刷头等耗材,就比推荐那些耐用产品本身更合理了。经常在亚马逊上购物的人对这一点会有体会,不仅不同的人看到的网页内容是不一样的,而且同一个人今天和昨天看到的内容也是不一样的,尤其是在完成一些购买行为之后。这种精细到每一次交易,甚至每一次内容展示的服务,在过去是想都不敢想的,但是靠大数据今天这已经变成了可能,而且它还代表着未来商业的趋势。

这章节中,我们重点分析方法论的层面。大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。

大数据的本质

与前两次工业革命类似,虽然信息革命的代表产品是计算机处理器,但是并不需要每一家公司都生产处理器,甚至不需要每一家公司自己开发软件。今天大部分公司使用的处理器只有两个系列,即英特尔x86系列(加上AMD兼容产品)和英国ARM公司设计的RISC(精简指令集)处理器,因此计算机实际上可以被看成是一种资源,而大部分公司需要做的只是使用好这些资源而已。

当然,那时贾里尼克整个团队所拥有的计算能力还不如今天一部iphone(苹果)手机呢!在20世纪90年代互联网兴起之后,数据的获取变得非常容易。

这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。

在方法论的层面,大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。

在信息时代,由于摩尔定律的作用,计算机是便宜的资源,而且越来越便宜,人力成本则会越来越高,因此聪明的公司懂得利用计算机来取代人的工作,像Google或者Facebook这样的公司,都是尽可能地将越来越多的事情交给机器去做,而不是靠便宜的机器取代人工,这种做法有意无意地和信息论的原理相符合。当然,也有的企业主不愿意在IT方面进行投入而坚持使用人工,因为这种投入在初期看上去显得比人工昂贵,这些企业后来就逐渐地被淘汰了。

但是,在能够定位的智能手机出现后,这种情况得到了根本的改变。由于智能手机足够普及并且大部分用户开放了他们的实时位置信息(符合大数据的完备性),使得做地图服务的公司,比如Google或者百度,有可能实时地得到任何一个人口密度较大的城市的人员流动信息,并且根据其流动的速度和所在的位置,很容易区分步行的人群和行进的汽车。

通过这件事我们也能进一步体会大数据完备性的特点。在过去,统计学家们一直试图寻找好的采样方法,以便在有限的样本中找到覆盖尽可能全的规律,但是在大数据时代,这些努力都不需要了,因此样本集可以等于全集。另外,我们还可以从这个案例中看到大数据时效性的特点。对于新的、过去没有见过的情况,Google的服务器反应是非常及时的,即在第二次就能把新鲜的数据提供给用户使用,这在大数据时代之前也是做不到的。

我们对大数据重要性的认识不应该停留在统计、改进产品和销售、或者提供决策的支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。而机器一旦产生和人类类似的智能,就将对人类社会产生重大的影响。毫不夸张地讲,决定今后20年经济发展的是大数据和由之而来的智能革命。

这样一来,如果一家公司能够在浏览器市场占很大的份额,即使它的搜索量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点击数据,一家搜索引擎公司可以快速改进长尾搜索的质量。当然,有人诟病必应的这种做法是「抄」Google的搜索结果,其实它并没有直接抄,而是用Google的数据改进自己的点击模型。这种事情在中国市场上也是一样,因此,搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。

当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如“虚拟现实”,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如“毕加索早期作品介绍”,需要很长的时间才能收集到“足够多的数据”来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。

机械思维对世界的影响力并没有随着工业革命的结束而结束,从牛顿时代开始接下来3个世纪里,人类越来越习惯于把一切运动归结为圆周运动一样。机械思维从此渗透到社会生活的方方面面,人们相信能够用机械思维解决一切问题,包括过去很多无法解决的问题。

关于大数据多维度的重要性问题,可以从两个角度来看待它。第一个视角是「互信息」,为了获得相关性通常需要多个维度的信息。比如我们要统计「央行调整利息」和「股市波动」的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的「交叉验证」,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,「空气湿度较高」和「24小时内要下雨」之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证「24小时内要下雨」这件事,那么预测的准确性就要大很多。

从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此,在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好。这也就导致一种新的方法论诞生。

彩世界彩票注册平台官网 6

在20世纪90年代互联网兴起之后,数据的获取变得非常容易。从1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。

3、大数据更是一种思维方式革命

机械思维的形成可以追溯至古希腊。欧洲之所以能够在科学上领先于世界其它地方,在很大程度上是依靠古希腊建立起来的思想和逻辑推理能力,依靠它们可以从实践中总结出最基本的公理,然后通过因果逻辑构建起整个科学的大厦。其中最具有代表性的是欧几里德的几何学和托勒密的地心说。

世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。

那么,机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别呢?

数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这点得益于数据量的增加。

我们回顾过去是为了展望未来。今后,由大数据引发的智能革命也将是以一种与前面几次技术革命类似的方式展开,如果我们用两个简单的公式来概括的话,那就是:

5、互联网公司的争夺和大数据应用

说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至“机械”本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说“互联网思维”、“大数据思维”很时髦一样。在过去三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为习惯并没有摆脱机械思维。

比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来Google的10%左右陡然提升到Google的20%?30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用Google搜索时的点击情况。

很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式全面领先。

在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命-智能革命。

从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此,在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好。这也就导致一种新的方法论诞生。

要说清楚大数据思维的重要性,需要先回顾一下自17世纪以来一直指导我们曰常做事行为的先前最重要的一种思维方式一一机械思维。今天说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至“机械”本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张地汫,在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维,尽管他们嘴上谈论的是更时髦的概念。

机械的广泛使用和机械的思维方式直接导致了人类迄今为止最伟大的事件——工业革命。在工业革命之前的2000多年前里,世界各地的人们生活水平其实没有太大的提高。已故著名历史学家安格斯·麦迪森(1926-2010)对全球各个文明在不同时期所做的经济学研究发现,世界人均财富从公元元年左右到18世纪工业革命前是没有提高到。

通过这件事我们也能进一步体会大数据完备性的特点。在过去,统计学家们一直试图寻找好的采样方法,以便在有限的样本中找到覆盖尽可能全的规律,但是在大数据时代,这些努力都不需要了,因此样本集可以等于全集。另外,我们还可以从这个案例中看到大数据时效性的特点。对于新的、过去没有见过的情况,Google的服务器反应是非常及时的,即在第二次就能把新鲜的数据提供给用户使用,这在大数据时代之前也是做不到的。

数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。

大数据一词经常出现在媒体上是2007年以后的事情,但是大家对他的理解不一,有些甚至是误解,比如大数据和大规模数据混为一谈。要谈大数据,我们要先讲清楚什么是大数据,它都有哪些特征。大数据最明显的特征是体量大,这一点无论是内行还是外行都认可,没有什么异议。

首先,技术革命导致商业模式的变化,尤其是新的商业模式的诞生。其次,生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。

1、这个时代属于大数据

但是做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar),浏览器甚至收入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其它搜索引擎的数据,比如微软通过IE浏览器收集用户使用谷歌搜索时的点击情况。这样以来,如果一家公司能够在浏览器市场占有很大的份额,即使它的搜素量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点数据,一家搜索引擎公司可以快速改进长尾搜索的质量。

与前两次工业革命类似,虽然信息革命的代表产品是计算机处理器,但是并不需要每一家公司都生产处理器,甚至不需要每一家公司自己开发软件。今天大部分公司使用的处理器只有两个系列,即英特尔x86系列(加上AMD兼容产品)和英国ARM公司设计的RISC处理器,因此计算机实际上可以被看成是一种资源,而大部分公司需要做的只是使用好这些资源而已。

大数据的时效性其实不是必需的,但是有了时效性可以做到很多过去做不到的事情,城市的智能交通管理便是一个例子。在智能手机和智能汽车(特斯拉等)出现之前,世界上的很多大城市虽然都有交通管理(或者控制)中心,但是它们能够得到的交通路况信息最快也有20分钟滞后。如果没有能够跟踪足够多的人出行情况的实时信息的工具,一个城市即使部署再多的采样观察点,再频繁地报告各种交通事故和拥堵的情况,整体交通路况信息的实时性也不会比2007年有多大改进。

从某种意义上讲,2005年是大数据元年。虽然大部分人感受不到大数据带来的变化,但一项科研成果却让全世界从事机器翻译的人感到震惊,那就是之前机器翻译领域从来没有技术积累,不为人所知的Google,以巨大的优势打败了全世界所有机器翻译研究团队,一跃成为这个领域的领头羊。

第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。

世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。

吴军的新书《见识》,即将于12月17日上线,正如书中的核心观点:你最终能走多远,取决于见识;

在大数据出现之前,并非我们得不到信息直接的关联性,而是需要花费很长的时间才能收集到足够多的数据,然后再花费更长的时间来验证它,这也是过去大部分传统的企业对于细节数据的收集和处理不是很重视的原因,相比之下他们更看重经验和宏观数据。但是到了大数据时代,这些企业的观念也在慢慢转变。

不论经济学家还是之前的托勒密、牛顿等人,他们都遵循着机械思维。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。

工业革命带来的不仅是财富,也大大延长了人类的寿命。在工业革命之前,无论是欧洲、东亚还是印度,人均寿命都在30~40岁之间徘徊,因此古人才会有“人生七十古来稀”之叹。而在1800年之后,世界各国的人均寿命都先后翻了一番。由此可见,一种新的思维方式对人类文明进步的重要性。

反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。

歌德说,“读一本好书,就是和许多高尚的人谈话。”

第一,世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。

香农第二定律不仅描述了通信领域最根本的规律,而且它是自然界本身所固有的规律,能够解释很多商业行为。比如我们常说的生意靠人脉,其实这个人脉就是人与人之间交往的带宽。

这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。

三、“机械思维”的革命

大数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,这最终将带来一场智能革命。

本文由彩世界注册首页发布于彩世界彩票注册平台官网,转载请注明出处:大数据和人工智能对我们的生活产生怎样的影响

上一篇:阿里云40家知名企业源代码“泄露”,谁的锅?【 下一篇:没有了
猜你喜欢
热门排行
精彩图文