Local EPUB Text
用“多元回归分析”排除混杂因素的影响
如果想在一元回归分析中用回归线的倾斜程度代表因果效应,必须满足“不存在混杂因素”的前提条件。然而,现实中很少有情况符合这个条件。多元回归分析则可以排除混杂因素的影响。多元回归分析使混杂因素的值保持固定不变① ,以便我们能够画出表示原因与结果的关系的“回归线”,并根据回归线的倾斜程度来评估因果效应。
下面我们以饮酒与肺癌的关系为例进行说明。假设我们现在怀疑饮酒与肺癌之间存在因果关系。因为众所周知,饮酒量越大,患肺癌的风险越高。这里我们需要注意一个问题:存在“吸烟”这个混杂因素。很多喝酒的人也抽烟,而吸烟也是导致肺癌的原因之一。(见图表8-2)
图表8-2 “饮酒”与“肺癌”之间存在混杂因素吗?
如果采用多元回归分析明确饮酒和肺癌之间是否存在因果关系,则需要在吸烟量相同的人之间比较饮酒量较多的人和饮酒量较少的人,看他们患肺癌的风险是否存在差异。这种做法便是“使吸烟量保持固定不变”,使用多元回归分析可以实现这一点。固定的吸烟量可以是1日0根(不吸烟的人),也可以是1日5根。这样就可以在排除了吸烟量这个混杂因素的影响的基础上评估饮酒与肺癌的关系了。②
多元回归分析的具体操作方法可以参阅专业书籍,使用一般的统计分析软件,任何人都能轻松进行多元回归分析。在会上被问及广告的效果时,如果只是单纯地比较目前和去年的数据,把广告与销售额之间的相关关系当作因果关系来看待的话,就有可能会被旁人指出混杂因素的存在,当众出洋相。
而如果能提前收集混杂因素的数据,在排除其影响的基础上再评估原因与结果的关系,无论是领导还是客户,都肯定会更加信任你给出的数字。