Local EPUB Text
整合多个协变量的“倾向得分匹配法”
图表7-1 找出相似个体的“匹配法”
整合多个协变量的“倾向得分匹配法”
协变量未必只有一个。如果只考虑店长年龄相同的店铺,那么从对照组中找到符合这个条件的店铺进行匹配并不难。然而,如果存在多个协变量,恐怕就不一定能从对照组中找到所有条件都完全一样的店铺了。
这种情况下,我们可以使用匹配法中的“倾向得分匹配法”(Propensity Score Matching)。“倾向得分匹配法”将多个协变量整合成一个得分,用这个得分进行匹配。倾向得分指 “分入干预组的概率”。例如,考虑多个协变量后,如果某店铺投放广告的概率为50%,则该店铺的倾向得分就是0.5;如果某店铺投放广告的概率为30%,则该店铺的倾向得分为0.3。
如果投放广告的店铺(干预组)中有某店铺倾向得分为0.5,那么就从未投放广告的店铺(对照组)中选出倾向得分同为0.5的店铺进行匹配;如果某店铺倾向得分为0.3,那么就从对照组选出得分同为0.3的店铺进行匹配。对采用这种方法最终形成的两个组进行比较,可以发现用于计算倾向得分的所有协变量(平均之后)在两个组具有相同的值。
为了便于读者理解倾向得分匹配法的整体概念,下面就用笔者自制的数据来推算广告对销售额的因果效应。假设影响销售额的因素包括店长年龄、店铺所在地区的人口以及店铺所在地区的人均收入(“店长年龄”“地区人口”和“地区人均收入”等3个变量为协变量)。
来看图表7-2。如果只看这一张表,似乎不投放广告的店铺的销售额反而更高。不过事实是否真是这样呢?你所在的珠宝店不应该投放广告吗?
图表7-2 无法对“协变量”各不相同的两个组进行比较
显然,投放广告的干预组和未投放广告的对照组不是可比较组。投放广告的店铺店长年龄比较大,也许是公司特意把经验丰富的店长派到了销售额较低的地区。如果单纯从有无投放广告的角度对销售额进行比较,很可能得出广告对销售额具有负面效果的错误结论。
这种情况就正好可以用到倾向得分匹配法。用店长年龄、地区人口、地区人均收入这三个协变量计算出倾向得分。然后,从干预组和对照组中依次找到倾向得分相近的店铺进行匹配。这样便可以得到干预组的30家店铺和对照组的30家店铺。
来看图表7-3。这是进行倾向得分匹配后的干预组和对照组的对比。匹配之后,只要协变量的分布一致(经济学家们将这种现象称为“协变量达到平衡”),我们就可以说这两个组是可比较的。
图表7-3 利用倾向得分匹配法使“协变量”达到平衡