来源:豆瓣,计量经济圈
参考:复杂数据统计方法——基于R的应用(吴喜之教授)
1假设检验的误区:不能拒绝就接受除了像两点分布那样的理论探讨之外,在目前数理统计教科书的内容范畴中,当p值被认为不够小而不能拒绝零假设时,只能够说“目前没有足够证据拒绝零假设”,而绝对不能说“接受零假设”。在实际数据分析中,人们只能够得到“拒绝零假设时可能犯错误的风险”(相应于P值)而得不到“接受零假设时可能犯错误的概率”(这是不可能得到的概率)。国内某些“权威”教科书长期错误使用“接受零假设”的说法,其原因可能是觉得任何统计分析一定要有结论,实际上,在给出任何统计结论时,必须给出相应于该结论可能产生的风险。提供决策建议而又不说明风险是不负责任的。无法给出风险的“接受零假设”的决策是绝对不能做的。无论“权威”如何说,我们都应该运用自己的大脑来思考。“接受零假设”的说法已经成为中国特色,近40多年来没有见到国外教科书有这种说法。下面我们用一个数值例子来说明“接受零假设”说法的荒谬。对自然数列(当然不是正态分布)做两种正态性检验:一种是对从1到50的自然数列做Shapiro-Wilk正态性检验;另一种是对从1到的自然数列做Kolmogorov-Smimov正态性检验。它们的p值分别为0.及0.,结果是两种正态性检验在0.05的显著性水平下都无法拒绝(正态性的)零假设。2假设检验的误区:p值小于0.05就显著“P值是多少才算小概率”取决于显著性水平的取值,也就是说,给定显著性水平a,当p值小于a时应拒绝零假设。a取多少完全依赖于问题本身。对于80年前的Fisher时代,对于农业试验,概率为0.05可以认为很小,就算显著,这不会引起任何争议。那么为什么不取0.,或者0.?这可能是人们习惯的“洁癖”所致,其实没有多大区别,不必太纠结。关于显著性水平取多少,看下面例子:如果对父子(父女)做亲子鉴定,有50个鉴定错了(误差0.05),或者有5个鉴定错了(误差0.),你能按照显著性水平0.05来认为这是小概率事件吗?显然不能,即使是0.,也不能算是小概率事件,鉴定机构肯定脱不了干系。不能让“0.05”这个数字把自己的头脑禁锢了。任何时候都要以问题的性质为出发点,绝对不能盲目跟随某些定式思维教科书的并非负贵任的暗示。此外,p值仅仅是由一个样本计算出来的,对其含义的任何夸大或过分理解都是不可取的。3置信区间的误区如果从数据根据公式算出来的均值的置信区间为(2.3,4.5),那么能不能说区间(2.3,4.5)以概率1-a覆盖
?上述说法显然不对,因为
和区间(2.3,4.5)都是固定的数,没有随机性可言,不能出现任何概率区间(2.3,4.5)是否覆盖
,不可能知道.人们只能够说“对于无穷多个不同样本(样本量均为n),根据公式算出来的无穷多个区间中大约有1-a比例的置信区间覆盖
,但到底哪些覆盖,谁也不知道”。或者能够说“对于随机变量X而言,随机区间以概率1-a覆盖
,但这个结论和用具体数据算出来的数字区间意义不一样,和具体样本无关。此外,上面的置信区间论述是假定样本为独立同正态分布的。你敢保证样本满足这个条件吗?4最小二乘线性回归中的误区大多是主观的假定对于普通最小二乘线性回归:往往假定了模型的线性形式。但是,大家考虑一下,世界上有多少关系是线性的呢?这种线性假定不仅存在于回归当中,而且几乎存在于所有统计方向。这是因为数学对于线性假定的情况最有办法,即使对应于非线性假定的情况,也常常要利用诸如Taylor展开一类的方法把问题转换成线性的来处理。这也说明了目前人们掌握的数学工具的局限性以及使用和开发机器学习一类方法的必要性。往往假定了样本点是独立同分布的。人们不禁要问:世界上有多少关系是独立的?有多少变量在抽样时可以假定分布不变?这种假定也大多是为了数学上的方便。往往假定了样本点有正态分布或者样本量“足够大”。前面说过,没有任何人能够证明某一实际数据来自于任何分布。而假定“大样本”是为了使用需要正态假定的各种数学结论。但谁又能说你的样本量足够大呢?采用“最小二乘法”本身意味着你选择的损失是对称的二次函数形式。请考虑下面问题的损失对称性:一包西洋参的分量多一些或者少一些对于顾客和对于卖家的损失一样吗?把一个癌症病人说成正常和把正常人说成患癌症损失一样吗?为什么损失函数取二次函数,而不是绝对值?而不是非对称函数?对回归结果缺乏根据的“解释”误区:“当其他变置不变时,某变置系数的大小是该变量增加一个单位时因变量所增加的部分(对因变量的贡献广)。这种说法仅仅在变量独立以及模型的一大堆假定正确时有效。或者对在干预情况下的实验数据近似有效。如果对于一般的观测数据你也非要这么说,那么请问:你能证明变量的独立性和模型假定正确吗?永远无法证明,也没有人能够证明!不幸的是,这种说法经常出现在“经济统计”的教科书中,而各种经济指标恰恰大多是不独立的。这和下面的不恰当叙述是等价的:“做线性回归拟合可以从系数大小知道各个变量对因变量的影响大小。下面例1.1表明这种说法是谬误的(略)。误区:“进行t检验或F检验时,p值较小的变量就较显著你能证明数据是独立同正态分布的吗?你能证明模型是线性的吗?你能证明是“大样本”吗?如果不能,最好别这样说。误区:“
越接近于1,说明模型越合适你用铅笔信手把所有观测值用任何曲线(或折线)连接起来作为回归线时,必然有
,但这可能仅仅是过拟合的毫无意义的“回归”。增加无关的(“错误的”)自变量对预测会不会有影响某国家机关科研所的一位负责人说:即使自变量采取了与因变量无关的周期变量,利用拟合数据所得到的模型做出的预测结果也会出现周期性。是这样的吗?显然,增加这个变量对方程没有什么影响,两次拟合x1的系数都是4.,非常显著,而增加的周期变量x2完全不显著(p值为0.),其拟合系数为0..实际上,增加与因变量无关的自变量不会对回归结果有多大影响。那个负责人完全凭自已的想象代替科学,实在有些可悲,这也说明职位不能代替知识.5样本量是多少才算大样本“大样本”经常用来表示可以使用中心极限定理来说明线性回归的F检验和t检验有效(因为均值渐近正态)。但在实际数据分析中,有的教科书说样本量是30就可以认为是大样本。这种说法不负责任,会严重误导读者。6用31个省、直辖市、自治区数据能做什么这一个议题引起了很大的争议,因此此处不再展示。7汇总数据(比如部分均值)和原始观测值的区别很多人喜欢用汇总数据,比如用各地区变量的均值来做诸如回归那样的推断。这时会出现很多问题。下面把一个有个观测值的原始数据分成4组、12组及30组,然后求出每组的均值,看各组的相关系数的差别,并点出均值的散点图(图1.2)。图1.2显示,原来基本独立的(相关系数为0.01)两组数据在分组并取均值之后,它们的相关系数从4个均值的0.91,12个均值的0.22到30个均值的-0.17。事实上,当只有两组时,相关系数为1,随着组的个数增加,各组均值的相关系数应该接近原始数据的相关系数。从这个例子可以看出,无论在什么情况下,都最好使用原始数据。如果使用原始数据分组后的各组均值来替代原始数据,则组的数目越少,结果越不可靠。
...TheEnd...
建议收藏转发,欢迎全民扩散
福利:“雄安学术”