作者:张玉宏,博士
摘自:CSDN
随着各种技术发展,很多人都在吹捧大数据。然而如同股市一样,越是高涨,越是需要警醒,在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远。本文的10个小故事,或许能让你有所得。
自年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、*治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。
中国工程院李国杰院士更是把大数据提升到战略的高度,他表示,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。
在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势(GooglTrnds)显示的有关大数据热度的趋势,从图1中可以看到,在未来的数年里,“大数据”的热度可能还是“高烧不退”(图1中虚线为未来趋势)。
图1大数据趋势(图片来源:作者截图)
在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远?例如,年4月,大名鼎鼎的《纽约时报》发表题为《大数据带来的八个(不,是九个!)问题》(Eight(No,Nin!)ProblmsWithBigData)”的反思文章,其中文中的第九个问题,就是所谓的“大数据的炒作(walmostforgotonlastproblm:thhyp)”。同样为重量级的英国报刊《财经时报》(FinancialTims,FT)也刊发了类似反思式的文章“大数据:我们正在犯大错误吗?(Bigdata:arwmakingabigmistak?)”
在大数据热炒之中,大数据的价值是否被夸大了?是否存在人造的“心灵鸡汤”?大数据技术便利带来的“收之桑榆”,是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障?大数据热炒的“繁华过尽”,数据背后的巨大价值是否还能“温润依旧”?在众声喧哗之中,我们需要冷静审慎地思考上述问题。
太多的“唐僧式”的说教,会让很多人感到无趣。下文分享了10个从“天南地北”收集而来的小故事(或称段子),从这些小故事中,可对热炒的大数据反思一下,这或许能让读者更加客观地看待大数据。有些小故事与结论之间的对应关系,或许不是那么妥帖,诸位别太较真,读一读、乐一乐、想一想就好!
故事01:大数据都是骗人的啊——大数据预测得准吗?从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求?
根据过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:尼玛大数据都是骗人的啊……惨叫嘎然而止。
图2大数据预测:都是骗人的
这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。
我们知道,针对大数据分析,无非有两个方面的作用:(1)面向过去,发现潜藏在数据表面之下的历史规律或模式,称之为描述性分析(DscriptivAnalysis);(2)面向未来,对未来趋势进行预测,称之为预测性分析(PrdictivAnalysis)。把大数据分析的范围从“已知”拓展到了“未知”,从“过去”走向“将来”,这是大数据真正的生命力和“灵*”所在。
那头“悲催”的猪,之所以发出“大数据都是骗人的啊”呐喊,是因为它的得出了一个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张口”的猪一般的生活。但是没想到,会发生“黑天鹅事件”——春节的杀猪事件。
黑天鹅事件(BlackSwanEvnt)通常是指,难以预测的但影响甚大的事件,一旦发生,便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布(NassimNicholasTalb)所著的畅销书《黑天鹅》,来获得对“黑天鹅事件”更多的理解。
其实,我们不妨从另外一个角度来分析一下,这个搞笑的小寓言在“黑”大数据时,也有失败的地方。通过阅读知道,舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是:大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。
那头小猪,仅仅着眼于分析它“从小到肥”成长数据——局部小数据,而忽略了“从肥到没”的历史数据。数据不全,结论自然会偏,预测就会不准。
要不怎么会有这样的规律总结呢:“人怕出名,猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史,天天都上演的还少吗?上面的小寓言,其实是告诉我们:数据不全,不仅坑爹,还坑命啊!
那么,问题来了,大数据等于全数据(即n=All),能轻易做到吗?
故事02:颠簸的街道——对不起,“n=All”只是一个幻觉
波士顿市*府推荐自己的市民,使用一款智能手机应用——“颠簸的街道(StrtBump,网站访问链接: