稳健性检验的方式有哪些？

二维码 · 发表于 2024-11-8 21:39

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

稳健性检验的方式有哪些？
原文地址：https://www.zhihu.com/question/394735840

检验医师 · 发表于 2024-11-8 21:40

感觉近几年的文献，都特别重视稳健性检验，稳健性简单来说就是，当我们通过什么实证模型或者其他研究设计得出一个结论时，需要通过一系列方法来验证所得的结论是否可靠。当我们改变了一些条件或者假设之后，发现所得结论依然不变，那么我们的结论就是稳健的，反之，所得结论有待商榷，我们需要找出使结论发生改变的原因并对其进行解释。
那么很多人对稳健性傻傻分不清楚并不是因为稳健性分析很难做，而是不确定应该怎么做，因为目前关于如何做稳健性检验并没有统一的标准，也没有一个明确的说明，规定我们到底应该要从哪些角度去做稳健性检验。
所以，我们看到的每一篇文献呢，都是根据自己的研究目的不同，稳健性检验的角度也会大不相同。比如当你的文章着重于研究方法的设计时，稳健性检验则应该更多关注于研究方法成立的前提条件和假设；而当你的文章是注重数据处理时，则应该更多的关注于数据本身的稳健性。那么我这里就结合之前的那篇文献，讲一下比较常见的稳健性分析。
首先，最常见也是最简单的稳健性检验是补充变量法：就是通过增加或者减少部分控制变量，或者说是加入遗漏变量，来证明模型里面的主要解释变量，其回归系数正负性以及显著性一致，这里注意的是，不必关注系数大小，因为不同模型系数大小是没有可比性的，补充变量也还可以补充虚拟变量，比如固定模型比较常见的是加入时间或者个体的虚拟变量。
第二种常见的就是替换变量法，比如我们要研究a对b的影响，其中a既可以用a1变量的数据来衡量，也可以用a2变量的数据来衡量，两种变量都可以在一定程度上代表a这个意思，那么我们就可以互相替换，互做稳健性，但是要用一样的模型方法。
第三种呢，就是改变样本容量，也就是对数据集进行变化，比如说缩尾处理，还有比如取对数来改变样本数据，或者在年份或者个体方面，扩增样本容积，或者选择一个有代表性的子样本数据集进行分析，这都算对样本容量或者数据集的改变。
第四种呢，是改变模型，比如针对内生性问题，加入滞后变量，改变模型设置，或者换一个模型也行，比如工具变量法或者动态gmm，就是经常跟固定效应模型互做稳健性。
稳健性分析，这类分析说到底就是为了证明主要回归结果的稳健，实证结果哪一方面容易被质疑，就对应采取方法做一个稳健性分析，经常有同学问我，做出来不稳健怎么办啊，那就换一种方法做呀，对不对，绝对不能搬起石头砸自己的脚呀
详细可见视频介绍~谢谢大家~

感恩由您 · 发表于 2024-11-8 21:40

这里以例子的方式阐述到底需要做哪些稳健性检验。需要解决两个问题：一是做了什么，二是为什么要做这些工作。
第一个问题：要做什么

这个问题本身可能指的并不是单纯的稳健性，而是在我们完成了模型的主体回归之后，还需要做什么。这里整理整理了英文顶级期刊（AEJ：Applied Economics ）中传统计量模型文章的基本结构。具体来说，这里主要关注两个点，一是文章的总体结构，二是文章拓展性分析部分做了哪些工作（即基本结果后面的更细致的分析部分）。考虑到拓展性分析的内容较多，这里仅作总体分析。
总的来看， 2022 年第 1 期 AEJ: Applied Economics 包含 12 篇文章，均为数据估计类的文章，其中传统的计量方法 10 篇（实验 2 篇）。文章目录在文末（附录1：2022 年第 1 期 AEJ: Applied Economics 文章目录:）。几乎所有的传统计量的文章均不同方法（DID、IV、RD）处理了内生性问题。拓展性分析部分，主要考察了稳健性、异质性、安慰剂、机制等方面的内容；使用的主要方法包括调整变量选择、交互项、分组等。更需要注意的是，拓展性分析部分的分析中都有严格的经济逻辑。这部分内容虽然处理的方式并不复杂，但均需细致的考虑变量之间的经济关系和回归过程的经济解释。
中文的例子也可以查看：
AA好饿啊：【文章结构】中国工业经济，2022年第02期，研究方法、文章结构注：研究方法由“文献速读一号机”整理；文章目录来自杂志社官网。
第二个问题：为什么要做这些工作

具体来说，这些拓展性/稳健性的动机和目的主要包括如下几个方面：（1）排除其他因素/替代性解释的干扰（主要通过增加变量、调整样本期等方式）；（2）说明在不同变量和样本下结果稳定（主要通过替换变量/指标、调整样本、改变估计方法等方式）；（3）讨论组间异同丰富文章结论（主要使用分组或交互项）；（4）通过延长回归链条丰富整个分析逻辑（主要是加入更多被解释变量的分析）；（5）说明冲击随机性（主要是安慰剂检验）。
可以参考下面这一篇文章所举的例子来理解这些研究目的：
AA好饿啊：【方法·精读】计量文章中为什么要进行拓展性/稳健性分析（一）| 中文文章<hr/>附录1：2022 年第 1 期 AEJ: Applied Economics 文章目录:

1. The Political Impact of Immigration: Evidence from the United States
移民的政治影响：来自美国的证据（IV）

文章结构：引言和文献 → 数据描述部分（描述性统计、散点图和相关性）→ 主要结果（OLS 和 IV）→ 拓展性分析（稳健性[调整控制变量和权重、调整用于回归的样本范围]；异质性[交互项]；更换数据检验；反事实分析）

2. The Origins of Common Identity: Evidence from Alsace-Lorraine
共同身份的起源：阿尔萨斯-洛林的证据（RD）

文章结构：引言和文献 → 背景介绍 → 数据描述部分（识别策略，RD 的一些相关检验）→ 主要结果 → 拓展性分析（机制检验；稳健性：安慰剂测试[反事实分组/边界，随机化分组]、替代性解释[替换关注变量]、多种可能影响的额外检验）

3. The Long-Run Effects of Recessions on Education and Income
经济衰退对教育和收入的长期影响（DID）

文章结构：引言和文献 → 背景介绍（DID 基准图）→ 数据描述部分（识别策略）→ 主要结果 → 拓展性分析（机制检验；稳健性[证明替代性变量无影响]；潜在缓解因素[分组和交互项]）

4. Subways and Urban Air Pollution
地铁和城市空气污染（地铁开通的事件研究）

文章结构：引言 → 数据描述部分（数据的趋势和地区差异分析，识别策略）→ 背景和文献 → 主要结果 → 拓展性分析（异质性分析[交互项，城市变系数，距离分组]，长期效应分析，其他替代被解释变量的回归[为了更容易解释实际意义]）

5. Rational Habit Formation: Experimental Evidence from Handwashing in India
理性的习惯养成：来自印度洗手的实验性证据（实验）
6. Labor Market Returns to Vocational Secondary Education
劳动力市场对职业中等教育的回报（RD）

文章结构：引言和文献 → 背景 → 数据描述部分（时间趋势图、概率密度图、分组描述性统计，识别策略，RD 的一些相关检验图表）→ 主要结果 → 拓展性分析（稳健性检验[交互项、调整带宽、调整样本选择]，分组识别组间差异）

7. Inversions in US Presidential Elections: 1836-2016
国总统选举中的倒置现象：1836-2016（各种参数估计方法）
8. Information Frictions, Internet, and the Relationship between Distance and Trader
信息摩擦、互联网、以及距离和交易的关系（OLS+IV）

文章结构：引言和文献 → 数据描述部分（分组描述性统计）→ 背景 → 主要结果（OLS+IV）→ 拓展性分析（稳健性检验[增减控制变量、改变样本容量和权重、改变因变量为替代变量]，机制检验）

9. How Effective Are Monetary Incentives to Vote? Evidence from a Nationwide Policy
货币激励投票的效果如何？来自全国性政策的证据（DID，少量 RD）

文章结构：引言和文献 → 识别策略（数据描述、DID）→ 背景 → 主要结果（有前后两个部分，所以前一个很像是 X 到 M 的渠道分析）→ 拓展性分析（异质性分析[交互项、分组]，替换变量[获得对结果延伸性的理解]，替换数据）

10. Finally a Smoking Gun? Compensating Differentials and the Introduction of Smoking Bans
终于有烟枪了？补偿性差额与禁烟令的出台（DID，DDD）

文章结构：引言和文献 → 背景 → 基准理论模型 → 数据描述（分组描述性统计，识别策略）→ 主要结果 → 拓展性分析（稳健性[通过调整样本、增加控制变量等方法]，替代性解释[替换被解释变量]，考虑福利因素[替换被解释变量]）

11. Does Patient Demand Contribute to the Overuse of Prescription Drugs
患者的需求是否促成了处方药的过度使用？（有理论模型，实验）
12. Can Information Reduce Ethnic Discrimination? Evidence from Airbnb
信息可以减少民族歧视吗？来自 Airbnb 的证据（基于模型假设的估计）

检验医师 · 发表于 2024-11-8 21:41

结合国内top journal经济研究、管理世界、金融研究等发表的已有文章来看，目前关于稳健性检验的方法可以大致归类为以下几种：

采用被解释变量或者主要解释变量的替代性指标。比如，研究儒家文化对企业创新的影响时，徐细雄和李万利（2019，金融研究）在主回归中采用上市公司注册地200公里内儒家书院的梳理作为儒家文化强度的测度指标，后续稳健性检验则直接采用经地区人数标准化处理之后的企业所在省级行政区域内儒家书院数量作为儒家文化的衡量指标。对企业创新的度量则常采用专利申请量、专利授权量、研发投入等指标，分别在基础回归或者稳健性检验中使用（黎文靖等，2021，经济研究）。
在稳健性检验中进一步加入未在基础检验中控制的关键变量。例如，在研究文化对企业行为的影响时，审稿人通常会要求作者控制常见的文化因素（地区信任水平、地区腐败程度、地区宗教信仰水平等）对结果的干扰（杨国超和盘宇章，2019，金融研究；陈冬华等，2013，经济研究；颉茂华等，2021，经济学（季刊）），这一方法也是大家经常采用的一类稳健性检验。但部分审稿人可能不喜欢这种做法，他们会觉得，既然在稳健性检验中可以控制，那为什么不在最开始的基础回归中就控制住？
控制更多层面的fixed effects。特别地，在考察某一地区（地级市层面）因素对Y的影响时，必须排除掉某些时变的行业因素（industry*year FE）、时变的省级层面因素（province*year FE）等时变因素对结果的干扰，这一方法具体操作可参照Liu（2016，JFE）。
研究区间的处理。比如，有的研究如果包含了2008年或者2015年，会选择把这些发生了金融危机或者是股灾的年份剔除，重新估计之后进行检验。不过感觉这类做法效用不大，不是很受审稿人认可。
样本的重新选择。在中国上市公司的相关研究中，制造业占据大头，为了排除行业特质因素带来的影响，部分研究在稳健性检验环节会只选择制造业行业样本进行估计。
内生性处理。这里边包含的方法很多，比如双重差分法DID、工具变量法IV、矩估计GMM、Heckman两阶段回归、RDD断点回归等，这些方法也已经在众多已有文献中被采用过。学者们在做研究的过程中，也会直接把这些方法用到基础检验中。由于涉及文献过多，此处不再一一列示，大家可以查找相应的知乎回答了解详情。

参考文献：
[1]黎文靖,彭远怀,谭有超.知识产权司法保护与企业创新——兼论中国企业创新结构的变迁[J].经济研究,2021,56(05):144-161.
[2]颉茂华,王娇,刘铁鑫,施诺.反腐倡廉、政治关联与企业并购重组行为[J].经济学(季刊),2021,21(03):979-998.DOI:10.13821/j.cnki.ceq.2021.03.11.
[3]徐细雄,李万利.儒家传统与企业创新:文化的力量[J].金融研究,2019(09):112-130.
[4]杨国超,盘宇章.信任被定价了吗?——来自债券市场的证据[J].金融研究,2019(01):35-53.
[5]陈冬华,胡晓莉,梁上坤,新夫.宗教传统与公司治理[J].经济研究,2013,48(09):71-84.
[6]Liu, X. (2016). Corruption culture and corporate misconduct. Journal of Financial Economics, 122(2), 307-327.
https://mp.weixin.qq.com/mp/appmsgalbum?__biz=Mzg3NjcwNjM2Mg==&action=getalbum&album_id=2166088215231807490#wechat_redirect

大力水手 · 发表于 2024-11-8 21:41

常见的检验方式如下：变量替换法、补充变量法、分样本回归法、调整样本期、改变样本容量法。

1. 什么是稳健性检验？

论文中，我们常常要求要做稳健性检验，那么什么是稳健性检验呢？
根据百度百科的解释，稳健性检验考察的是评价方法和指标解释能力的强壮性，也就是当改变某些参数时，评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。
简单来说，当我们得出一个结论时，需要通过一系列方法来验证所得的结论是否可靠。当我们改变了一些条件或者假设发现所得结论依然不变，那么我们的结论就是稳健的，反之，所得结论有待商榷，我们需要找出使结论发生改变的原因并进行解释。
在较早的文献中，一般很少涉及稳健性检验，但近年来，大家对稳健性检验的重视程度越来越高，这也体现了大家对所得结论准确性的要求越来越高。做好稳健性检验，是使结论得到广泛接受的重要步骤之一。
遗憾的是，目前关于如果做稳健性检验并没有统一的标准，也没有一个明确的说明告诉我们在文章中我们到底应该要从哪些角度去做稳健性检验。因此，每篇文章根据自己的研究目的不同，稳健性检验的角度也会大不相同。比如当你的文章着重于研究方法的设计时，稳健性检验则应该更多关注于研究方法成立的前提条件和假设；而当你的文章数据处理时，则应该更多的关注于数据本身的稳健性。
为研究目前研究中稳健性检验常用的角度，笔者通过搜集经济研究、管理世界以及中国工业经济三个目前被广泛认可的期刊 2014-2020 年共六年的文献，从中随机挑选了包含实证研究内容的文章共 117 篇，经粗略统计发现其中将稳健性检验作为单独一个章节的文献共 51 篇，占比达到 43.6% (注：许多文章在进行结论分析时会将稳健性检验放入结论讨论部分，但是这里笔者因为统计方便的原因并没有将其纳入统计中，只统计了单独将稳健性检验作为一个章节的文献，因此实际进行稳健性检验的文章远大于 43.6%，该结论需谨慎使用)。
根据总结发现，在这 51 篇文献中，常用的稳健性检验的角度包括变量替换法，改变样本容量法，分样本回归法，补充变量法等，下一章节中笔者将按照该角度使用的频率从大到小进行排序并进行介绍 (注：每个角度的使用频率仅根据这 51 篇文献里出现的频率进行粗略估计，并不能代表所有稳健性检验的情况)。
2. 为什么要做稳健性检验？

当我们在课上学习到一个新方法时，老师会不断强调每个方法都有自己的假设和前提条件，而稳健性检验就是针对这些假设的。我们想要知道如果其中一个假设或者前提条件改变时，我们所得的结论是否依然可靠，这就是稳健性检验存在的意义。每当我们做稳健性检验时，我们应该思考以下问题：

我的研究假设是 A.
如果A 不成立，那么我的结果 B 就可能出现有偏的估计 (可能估计值过高/过低/标准误过小/等等...)
我认为 A 在我的检验中可能不成立，因为 C 或者，D是判断 A 是否成立的条件；
又如，D是另外一种计量方法但是并没有 A这个假设前提.
如果我们发现 A 不成立，那么我们则应该在稳健性检验中用 E 方法重新检验.

举一个简单的例子，假如我们现在准备研究政权的更替对于经济发展的影响，我们建立了一个简单的OLS回归模型将经济发展作为被解释变量，政权的更替作为核心解释变量进行估计：

我的分析假设是扰动项均值独立于所有解释变量，即变量外生，不受内部因素的影响，不存在遗漏变量的问题
如果存在遗漏变量问题，那么在回归中政权的更替这一变量的估计值就会过高或过低 (取决于遗漏了哪些变量)
我认为我们这个分析中存在遗漏变量问题问题，因为政权的更替通常会伴随着暴力事件的增加，而暴力事件的增加则会影响经济的发展，所以暴力事件是我们在随机扰动项中没有控制的变量
那么，增加暴力事件这一变量作为控制变量是我可以进行的稳健性检验之一。
如果我们发现，增加了这一控制变量之后，使得我的结果与原先的结果完全不同，那么我们之前的结果则是不稳健的，我们应该加入这一变量进行重新估计。本例中所提及的稳健性检验方法就是我们下文将要介绍的「补充变量法」。

3. 变量替换法

在我们进行分析时，常常会选择自己最熟悉或者偏好的方法测量一个变量，而实际上一个变量的测量方法有很多种，我们根据以往文献研究或者依照自己数据可获得性选择的测量方法往往无法保证结论的可靠性。因此，在文献中，作者都会将变量替换法作为稳健性检验的方法之一，而在我们的统计中，变量替换法更是稳居检验角度第一名。变量替换法包括：替换因变量，替换主要自变量以及放宽变量条件。
4. 补充变量法

在上文讲述稳健性检验时，我们曾举到一个例子，当探讨政权的更替对于经济发展的影响时，我们会产生遗漏变量的问题，而遗漏变量问题是我们大多数研究中都会遇到的问题，我们只能尽可能多的在模型中加入我们能想到的以及之前文献研究过的对我们结果可能产生影响的变量。因此，控制变量法和之前的变量替换法几乎成为每篇文献中都会使用到的稳健性检验方法。
5. 分样本回归法

由于不同的样本对于所得的结果具有不同的敏感性，因为在稳健性检验时，也常常进行分样本回归，常见的分类方法用按照人口规模分类，按照地理位置分类，按照城乡分类，按照性别不同分类等等。
6. 调整样本期

当我们在所得的整个数据集范围内进行分析时，常常会发现改变不同的时间段，得到的结论可能会完全不同。也许某一结论在某一时间段内得到的结果符合我们的预期，而当我们往后退 10 年，或者往前推 10 年再次回归，就会发现得到的结论完全不同！因此，选择正确的研究时间段也显得十分重要。在稳健性检验中，我们可以通过扩宽时间长度或者缩短时间长度来检验我们的结论。
7. 改变样本容量法

当我们选择好了时间之后，同时也要确定我们的样本是否最能体现我们所研究的问题，同时样本中有没有极端值会影响我们的结果。因此，在稳健性检验中，我们需要将个别离群值剔除，或者在样本中选择最适合我们研究目的样本来检验我们的结论是否依然稳健。
详细内容参见连享会推文

专题：回归分析
- 稳健性检验！稳健性检验！

相关推文

Note：产生如下推文列表的 Stata 命令为：
. lianxh 稳健性检验
. songbl 稳健性检验
安装最新版 lianxh/ songbl 命令：
. ssc install lianxh, replace
. ssc install songbl, replace

专题：内生性-因果推断
- Stata 新命令：konfound - 因果推断的稳健性检验

继续前进 · 发表于 2024-11-8 21:42

实践中用的最多的方法：

换数据，证明结果有external validity
加/减变量，证明内生变量基本都被控制住了
选用相似变量（比如education，可以用education year，可以用最高学历云云）

其次也有通过换模型来进行的，但是稍微少见一些，一般会选用“亲兄弟”系列的模型，比如logit和porbit互为检验，did和propensity score matching did之类的。一般不会用选用模型和内在假设差异特别大的模型，例如OLS和IV一旦得到不同的结果，那么说明有可能OLS是有比较严重的内生性的，肯定是保留IV模型；同样，如果OLS和RE或者FE相比较，由于RE和FE的模型考虑了更多因素，可能取信度会高于OLS；或者OLS和GMM，一旦存在异方差问题，那么GMM回归给到的有效性更高，也就不会再取用OLS的结果；所以有时候这更像是回归之前就需要进行的的模型选用问题。

图文播报

[分享] 稳健性检验的方式有哪些？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心