作者简介:范子英,复旦大学经济学博士,上海财经大学公共经济与管理学院教授,主要研究领域:公共财*学、发展经济学、区域经济学。
年以来,经济保持了近40年的高速增长,在由计划经济向市场经济转型的过程中,中国借鉴了其他发达国家的成功经验,同时由于自身的特殊性,也采取了一系列具有中国特色的改革措施。一方面,中国幅员辽阔,地区之间差距巨大,很难实施“一刀切”的*策,中央*策必须充分考虑地方特色;另一方面,中国具有长达数十年的计划经济历史,改革存在严重的路径依赖,增量改革相对来说阻力更小。这意味着,我们的改革经验是在不断摸索过程中积累起来的,每一项公共*策的推出都是经过了充分的事先试验和事后总结,首先这必然要求决策层具有改革的智慧,能够举重若轻挑选出最有效率的改革方向,其次也要求决策层对改革的效果能够达成共识。此时的任务,就是如何科学量化*策的效应,如何确保此项改革试验没有包含其他*策的干扰。
自20世纪90年代开始,中国的经济改革逐渐呈现“顶层设计”的特征,可以说这个阶段的改革任务更加艰巨。顶层设计对每一项*策的目标要求更高,严格来说,这样的改革模式对失败是零容忍的。因此,决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革,还是近期的顶层设计,都提出了一个共同要求,那就是对*策效应的科学评估和预判。而*策评估,特别是基于试验设计的评估方法,正是经济学近30年来的前沿方向。大力普及、推广科学的*策评估方法,对时下中国的改革显得非常必要。
对这些方法的普及,首先要求相关的*府部门在思想上提高认识,明白错误方法带来的危害,这些危害有时候会导致一些好*策难以落地;其次,各决策机构和地方*府要有较高的包容性,有一些*策的评估,对相应的制度设计要求更高,相关的机构要能够理解这些前提条件,必要的时候还需要配合研究人员对*策进行调整,以满足“科学”这个重要条件;最后,当面临多个*策之间的优劣选择时,要建立以科学评估为基础的*策选择机制,从而更加精确地制定出相应的*策细节。
本文分三部分逐步展开对科学评估方法的介绍。首先,本文从逻辑上阐述科学评估方法,特别是强调一些基本的逻辑错误;其次,参照我国常见的三种改革模式,提出相应的三种常见评估方法,并举实例进行阐述;最后,重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下,本文所有内容都是初步的介绍,任何一个方法背后都有非常完整的统计学理论作为支撑,读者若对这些初步的介绍感兴趣,可以尝试阅读一些更为专业的知识。如果是决策部门的同志,对基本方法的框架有一个基本了解,应该就足以引起重视,重视才是开展科学评估的前提。
一、科学评估方法的基本逻辑
从科学的意义上来说,评估一项*策的实施效应其背后的基本逻辑应该是:在给定其他条件相同的情况下,实施*策后的表现(例如价格)与假定没有实施*策后的表现的差异。这句话虽然很简单,但其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在*策评估的方法论中,这个例子中的B就是A的完美的反事实对照组(Counterfactual),也就是说,一旦其接受*策干预,则表现是A,如果没有接受*策干预,结果就是B。
但是我们知道,上述例子在任何的学科领域都是无法实现的,因为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平行世界,因此我们就无法获得一个*策实施后的反事实对照组。在现实世界中,一个人要么受到*策的干预,要么就是没有收到干预。以上大学为例,现实世界中的某个人,其只可能占据两种状态的一种,要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下的反事实(没上大学),也无法观察到没有上大学人群的反事实(上大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是无法从这个例子中去评估上大学的效应。
自然而然,我们经常采取的方法是,直接比较那些受到*策干预的人群和未受到*策干预的人群的差别,将这个差别等价于*策实施的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要求,那就是用未受到*策干预的人群作为*策干预人群的反事实,这句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现实*策中,这一前提条件往往是无法满足的,从而导致了整个评估结果的巨大偏误。举例说明,医疗卫生支出是*府需要大力进行资助的领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在医疗卫生领域的多了,用在教育、基建等就必须减少,因此在做具体的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式,询问一个人在医院,这个问题会呈现两种状态,医院,则是受到了医疗的干预,如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其自评健康程度,健康程度分为5档,1至5分别表示健康程度由差到好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。
由于是随机发的问卷,去医院的只占全部人群的一小部分,因此在近10万份的问卷中,仅有医院的,剩下的医院的。医院的人群的健康程度取均值,其健康程度是3.21,医院的人群的平均健康程度为3.93。采用简单对比的办法,我们会得出医疗恶化健康的错误结论。正如上一段所说,当我们简单地将处理组(去医院)和控制组(医院)进行对比时,其背后隐含的假设是,医院医院时,他们和那些真正医院的人群的健康程度是相同的。医院的人是生病了,而医院的人则没有生病,前面那句话的意思是,生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这个前提条件是无法满足的,医院的人医院,他们的健康程度也远低于实际上医院的人。因此,医院的医院人群的反事实参照组。由于医院的人群的健康程度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中,健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上的正向效应,简单对比就会得出负向的健康效应。
另一种经常犯的错误是,简单对比*策前后的差异,并将这种时间上的差异等价于*策效应。这种纵向对比,其背后隐含的假设是,一旦没有实施该*策,该时间节点之后的表现应该与之前完全一致,因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势,即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一个国家的CPI等,即使没有相应的*策干预,这些因素也会呈现一定的时间趋势,因此*策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控,共同冲击会使得我们