从这个意义上讲,统计图形的重要性毋庸赘述。在统计图形的历史上,能够达到揭示“从来没有料到的信息”这种高度的图形并不多,下面首先欣赏几幅前人创造出的名垂青史的统计图形。
01饼图和线图的起源
饼图和线图都是当今社会中常用的统计图形,它们是由有着“统计图形奠基人”之称的苏格兰工程师兼*治经济学家WilliamPlayfair发明的。在TheCommercialandPoliticalAtlas一书中,他用线图展示了英格兰年至年间的进出口数据(如图1.1所示),从图中可以很清楚地看出对英格兰有利和不利(即顺差、逆差)的年份;而在TheStatisticalBreviary一书中,他第一次使用饼图来展示欧洲一些国家的领土比例,图1.2即为史上第一幅饼图,描述了法国大革命前后欧洲一些国家的统计数据。
上图展示了各国的领土面积(和圆圈成比例)以及人口(左垂线)、税收(右垂线)、领土在各大洲分布比例等数据,两条垂线连线的斜率可表示税负的轻重(这一点颇有争议,因为斜率与圆的半径有关)。下图展示了土耳其帝国在三大洲的领土面积分布。(图片来自维基百科。)图1.1Playfair绘制的线图。这幅图主要展示了年至年间英格兰的进出口时序数据,左边表明了对外贸易对英格兰不利,而随着时间推移,大约年后,对外贸易逐渐变得有利。(图片来自维基百科)这两幅图在今天看来似乎没有什么惊世骇俗之处,但在统计图形种类极为稀少的当年,能以这种方式清晰展示数据结构,也实属难能可贵。除了这两种图形,Playfair还发明了条形图和圆环图。图1.2Playfair绘制的饼图02霍乱传染之谜
说起袭击欧洲大城市的严重灾害,不得不提19世纪的霍乱。由于没有及时清理垃圾,缺少清洁水源,以及下水管道系统不足,伦敦成为无药可医的流行病滋生的温床。当时公众一致认为霍乱是经空气传播的,如果吸入“瘴气”或者接触到霍乱患者,就会染上这种病。医生兼自学成才的科学家JohnSnow对这个观点颇为怀疑,他决心通过彻底调查这种致命疾病的根源来证实他的怀疑。
通过和当地居民交谈,他确定了霍乱暴发的源头是位于Broad大街的公共水泵。他对这种疾病的研究看起来很可信,因此他成功说服当地*府废弃了那个水泵。他所利用的主要证据就是图1.3:死亡发生的地点有明显的地理分布规律,在这种规律的指引和相关调查证据的支持下,他最终确定了霍乱的源头。后来证实离这口井不到1米远的地方有一个污水坑,坑内释放出来的细菌正是霍乱暴发的罪魁祸首。图1.3JohnSnow的霍乱传染原因探索图。年英国Broad大街大规模暴发霍乱,当时了解微生物理论的人很少,人们不清楚霍乱的传播途径,而“瘴气传播理论”是当时的主导理论。JohnSnow对这种理论表示怀疑,他于年发表了关于霍乱传播理论的论文,本图即其主要依据。图中心东西方向的街道即为Broad大街,黑点表示死亡的地点,黑点叠加的高度相应表示该处死亡人数。这幅图揭示了一个重要现象,就是死亡发生地都在街道中部一处水源(水井)周围,市内其他水源周围极少发现死者。经过进一步调查,他发现这些死者都饮用过这里的井水
03拿破仑的俄国远征
年6月24日,拿破仑率领人的大*团——同时也是欧洲集结的规模空前的部队——开赴莫斯科。但等他们到达那里,看到的只是一座空城。城里的人都撤离了,所有的供给也中断了。由于没有正式投降,拿破仑觉得俄国人从他那儿剥夺了一场传统意义上的胜利。
*队不得不撤退。在归程中,因为天气过于恶劣,给*队提供补给几乎是不可能的。马匹因为缺少粮草而变得虚弱,所有的马要么饿死,要么被饥饿的士兵拿去果腹。没有了坐骑,法国骑兵成了步兵,大炮和马车被迫丢弃,部队没了装甲。饥饿与疾病带来惨重的伤亡,逃兵数目也直线上升。大*团的小分队在Vyazma、Krasnoi和Polotsk也被俄国人击溃。法国*队在渡贝尔齐纳河时遭到俄*两面夹击,伤亡惨重,这也是法*在俄国遭遇的最后一场灾难。年12月14日,大*团被驱逐出俄国领土。在这场远征俄国的战役中,拿破仑的士兵只有大约人幸存。CharlesJosephMinard将这一历史事件用一张二维平面图记录了下来。Minard是一位法国工程师,他以在工程和统计中应用图形而闻名。图1.5就是他的著名作品:用一张二维图成功地展示了如下信息。*队的位置和行进方向,以及一路上*队的分支和汇合情况。士兵数目的减少(图形顶端最粗的线条表示最初渡河的4人,他们一路深入到俄国领土,在莫斯科停下来的时候还有人左右。从右到左,他们向西撤*,渡过Niemen河的时候,仅仅剩下约人。随着大部队和余部会师(比如在渡贝尔齐纳河之前),图中显示的数字降中有升)。撤退时的气温变化(参见图1.5的下半部分,可知当时气候条件极其恶劣)
图1.5Minard绘制的拿破仑远征图,展现了年拿破仑的大*团进*俄国的路线(上半部分)和撤退时的气温变化(下半部分)。这一历史事件中,法*数量的急剧减少以及恶劣的气候条件一览无遗,法国科学家étienne-JulesMarey称“该图所展现出的雄辩对历史学家的笔是一种极大的挑战”
这幅图在统计图形界享有至高无上的地位,被EdwardTufte称为“有史以来最好的统计图形”(Tufte是统计图形和信息可视化领域的领*人物,人称“数据达·芬奇”)前面展示了具有历史意义的几幅统计图,它们融入了前人的智慧与艺术,有些甚至具有重大的社会价值。当然,我们不能苛求每一幅统计图形都能达到那样的效果,但至少我们了解到了统计图形在揭示特殊现象或规律上的功能,这种功能是数据本身不能替代的。试想,若只是将所有霍乱死者的数据列在纸上,那么要观察出霍乱发生的规律是何其艰难。如今,统计图形的使用看似已经比较普遍,饼图、条形图都已不是什么新鲜事物,几乎人人都能做。但是,一方面,统计图形的价值并没有很好地体现出来;另一方面,人们对统计图形的了解和使用也被统计软件所限,而不能随心创造图形。有这样一组事实:以期刊《统计研究》在年12月至年11月期间共12个月的所有论文作为统计对象,剔除部分非学术研究型论文之后,挑选论文总数为篇,其中使用表格的论文篇数为(81.43%),表格总数为个,而使用图形的论文仅有63篇(37.72%),若将仅仅使用示意图(非统计图形)、条形图和折线图的论文排除在外,使用其他图形的论文仅剩下9篇。这是国内统计图形应用现状的一个缩影。为了改变这种局面、发掘出统计图形在数据分析中应有的潜力,这本《现代统计图形》应运而生。
这本书并不仅限于介绍如何作出漂亮的统计图形,而是在作图的同时,强调图背后更重要的工作,就是将“数据分析与统计图形的有机结合”。
这本书是“西交利物浦大学博士生导师、“统计之都”创始人、副主编、多个R扩展包”作者倾力打造的久享盛誉的数据分析与统计图形专著,影响了一代人。书中还基于ggplot2和R语言基础作图系统全新改版,并获得28位行业大咖联合推荐。如果你正在研究这方面的内容,不如来看看这本。久享盛誉的数据分析与统计图形专著《现代统计图形》
作者:赵鹏,谢益辉,*湘云常言道,一图胜千言。本书根据统计图形制作的需要,系统性地介绍了从古至今的众多统计图形案例,旨在展现统计图形在数据分析领域有待充分挖掘的潜力和价值。书中集中讲解了现有统计图形的种类、特点、图形元素、适用场合等,并且配以相应的统计数据分析实例,深入说明各种统计图形的用法、含义和作图技巧。同时,本书详细介绍了各种统计图形在R语言中的绘制方法和多种作图系统,为那些期望能自定义统计图形的读者提供方便的解决方案。作者简介
赵鹏,西交利物浦大学健康与环境科学系助理教授,英国利物浦大学荣誉学术成员。北京大学学士、硕士,德国拜罗伊特大学博士。“统计之都”成员,bookdownplus、mindr、beginr等R扩展包的作者。著有《学R:零基础学习R语言》。谢益辉,RStudio公司软件工程师。中国人民大学统计学院经济学学士、硕士,美国爱荷华州立大学统计学博士,“统计之都”创办人,中国R语言会议发起人,rmarkdown、knitr、bookdown、blogdown、animation、tinytex等诸多R扩展包的作者。*湘云,北京大生知行科技有限公司数据分析师。中国矿业大学(北京)理学学士和统计学硕士,“统计之都”副主编。28位业内人士,专业推荐(滑动查看)
互联网技术革命对统计学之影响是向人类社会量化解析自然生态和社会生态的深度进*,广义统计是一个深入发展统计思想期待的重心,其中,最为突出的具有龙头发展地位的是广义统计系统数据信息的可视化,它是当今人类社会发展在互联网平台化所有领域中实现认知、社会学习、分析研究、系统应用扁平化的科学手段。面对可视化的“现代统计图形”,可以适应任何人所拥有知识起点之认知学习,激发社会化学习研究之创新,对所有学科知识交叉应用可以升起不落的“发展力太阳”。对此,《现代统计图形》做出了杰出的贡献。——赵彦云,中国人民大学统计学院教授我认识老谢有19年了,等这本书的出版就等了14年。我在工作、学习中从这本书里获得了很多灵感,我自己写的书里也多次引用了这本书网络版的内容。这不仅是一本统计图形的工具书和参考书,更可以作为统计思维的人生之书。——李舰,统计之都理事,《统计之美》作者,九峰医疗首席数据科学家《现代统计图形》的雏形始于年,那一年我还在中国人民大学统计学院读大四,益辉师兄(老谢)比我高一级。他能坚持14年把书稿高质量地呈现给读者,彰显着现代统计人的初心。这本书以浅显而有趣的图形示例将统计学和可视化的历史娓娓道来,是一本难得的以图形为主线、探讨统计学和统计可视化的高质量通识读物。书中内容无不体现作者对现代统计和统计图形的深刻思考,例如“神奇数字”和“作图原则”等章节。这本书既可作为高校师生的统计计算或者统计软件中可视化章节的主要参考书,也可作为严谨学术作图的指导手册。——李丰,中央财经大学统计与数学学院副院长、副教授缺乏信心作出预期的图形吗?希望用R基本代码随意生成任何图形吗?欲用“半傻瓜”方法构造漂亮而又时髦的图形吗?渴望知道图形背后的原理及数学吗?愿意把画图作为乐趣吗?想要轻松地阅读一本关于编程软件的书吗?答案很简单:读这本《现代统计图形》!——吴喜之,中国人民大学统计学院教授纷繁嘈杂的数据经过科学的处理、加工之后,映入眼帘的是生动、直观、一图胜千言的统计图形,这个美妙的过程称为可视化分析,是数据科学中极为重要的部分。益辉兄的这本《现代统计图形》不仅高屋建瓴,概述了可视化分析的前世今生和哲学理念。同时,内容包罗万象,精彩纷呈。从最常用的条形图、直方图,到根据不同场景和数据自定义图形;从各种图形的思想和理论,到具体的案例和代码;从作图的细节参数,到不同的作图框架;处处闪耀着智慧的火花,令人目不暇接,收获颇丰。本人有幸在10年前,参与了这本书初稿的审阅校对,更有幸的是10年后,亲眼看见这本书正式与读者见面。甚为欣慰,特此推荐。——魏太云,统计之都理事会第二任主席这本书是我读过的最有意思、最吸引人的关于统计图形的书。我想,无论是否了解图形可视化,是否是统计专业人士,是否有R语言编程经验,都能从这本书中发现许多有价值的内容并从中受益。这本书在介绍常用统计图形的同时,用实例深入阐述各种图形的用法和含义,指导我们如何选择和使用统计图形,在授人以鱼的同时授人以渔。——曹洋,博士,生物信息分析师看这本书之前我以为R语言我算入门了,看完之后深感自己的无知。——姜*,武汉大学临床医学在读博士研究生优秀的统计思想和统计方法需要优雅的统计图形来表达。《现代统计图形》使用鲜活的经典实例深入浅出地阐释了统计图形的设计原则,给出了一套全面且实用的参考图库与绘图技巧,理论与实践并重,值得科研人员和数据科学从业者常备和参考。——肖楠,默沙东实验室生物统计和研究决策科学部副主任科学家读完此书,耳目一新。这本书开篇从统计作图的历史娓娓道来,中间辅以实例系统地介绍了不同类型的统计作图,最后从心理学角度总结了作图的原则。读者可以深切地感受到作者对数学生命的敬畏和热忱。全书既融汇了科学与艺术,又十分接地气,是同类书中极为难得的一种存在。——吴晟,暨南大学质谱仪器与大气环境研究所副研究员大数据统计或挖掘结果的图形化,是人们快速观察并发现数据隐藏信息或新颖知识的有效方法。统计图形不仅是大数据统计和挖掘结果的可视化利器,也是高水平学术成果的重要组成部分。《现代统计图形》集趣味性、知识性、技术性和实践性于一体,是作者浓缩多年用R语言制作统计图形经验的匠心之作。这本书不仅可作为高校统计学、数据科学与大数据技术等专业本科生的选修课教材,也可作为高校硕士和博士研究生用R语言作图的快速入门参考书。利用这本书提供的R语言作图源程序,读者可轻松掌握其基本方法,并在不知不觉中快速成长为使用R语言及其绘图包ggplot2制作统计图形的高手。——*德才,浙江工业大学教授、博士生导师,资深数据科学专家,“十一五”“十二五”国家级规划教材作者,浙江省教学名师数据可视化的学习之中,存在“道”与“术”两个不同层面。“术”为工具的使用,包括程序语言、作图函数等;“道”为作图思想,是逻辑、统计知识、审美等多方面的综合。这本书极难得地将二者相结合,不空谈道,也不局限于术。在每个阶段读,都有不同的收获。同时,还辅以百余种常见统计图形为案例解析,实乃不可多得之佳作。——王建栋,南京信息工程大学大气物理学院教授翻开这本书,不会觉得自己在念教材,也感觉不到科技制图“严谨性”带来的束缚,更像是在和几位艺术家聊天,畅谈研究数据的美学呈现。——王小享,南方科技大学研究助理教授如果你一直在寻找一本能循循善诱带你入门,又能一路托你到卓尔不群的统计图形真经,就是这本《现代统计图形》。但是作者们并非仅仅醉心于打造一本“图形形式美”的工具辞典,对贯通数学原理与图形表达,从认知逻辑出发优化视觉传达,权衡图形的直观呈现与统计价值等问题的思考暴露了三位作者的“数学艺术家”本质。木心有句:“思维、情操的创造性必然伴随着形式的创造性。”说的就是这些人、这本书吧。——刘倩,中央财经大学财经研究院副研究员这本书溯流从源地带着读者领略数据可视化技术的本质之“道”:可视化终究是数学的直观图形表达,而熟练偏向底层的技术才能使得表达过程不受束缚。即使这本书被谢大拖稿14年,依然被众多读者千呼万唤始出来,足见其超越技术本身,而道出数据可视化之本质的价值。——夏骁凯,华南师范大学计算认知科学博士研究生统计学及统计可视化是当前大数据时代最炙手可热的学问。如何挖掘数据价值,让数据直观地呈现并为我们所用,数据可视化功不可没。值得思考的是,我们所使用的可视化展现方式是否清晰准确地表达出了数据背后的价值。对于大部分人来说,Excel是办公场合使用最多的软件,几乎垄断了我们的日常工作。然而,这种数据可视化方式具有局限性,限制了统计工作者想要自定义统计图形的“能动性发挥”,可视化效率不高。相较于其他作图软件,R语言具有极强的“可定制性”。《现代统计图形》以风趣幽默的语言、浅显易懂的图形案例介绍了统计图形的历史,从应用角度全面介绍了R语言作图及其绘图包ggplot2作图的源程序,详细讲述了R语言作图系统中的各个细节,让我们由浅入深地掌握数据可视化的精髓。读者在这本书中不仅能学到R语言制作统计图形的实用技术,还可以拓展制作统计图形的探索性思维。对于初学R语言的众多科研工作者来说,这本书实在是不可错过的入门启蒙书。——于志国,南京信息工程大学水文与水资源工程学院副院长、教授、博士生导师《现代统计图形》读起来就像一本由武林前辈撰写的兵器图谱,其中不仅包含兵器(R作图元素及工具)展示、武功心法(统计学知识及作图原则),更有不少江湖趣事(统计图形简史及案例分析)。不管你是江湖少侠(熟悉R或统计学),或者初入江湖(刚开始学习R或统计学),我相信这本书都能帮你提高一层境界。即便是如我一般的小白,也多半会被作者们幽默诙谐的语言、娓娓道来的叙述,以及层层递进的剖析深深吸引,而受益匪浅。——叶飞,纽约城市大学数学助理教授喜欢谢益辉的人很多,但要认识真实的谢益辉或许要从这部作品开始。他对统计艺术的赤诚态度、对统计可视化创作的厚积薄发,这在人大统计专业我所教过的毕业生中并不多见。统计之灵借着益辉通俗的文字、生动的图形和缜密的语言对我们低语,传达着一代青年统计学者对数据之美的追求、对科学信念的执着,和他独特的对数据垃圾与艺术作品差别的