stata bysort样本有缺漏值就将该样本所在的组包含的样本都删除，怎么做？

点击联系发帖人 时间：2018-09-25 14:00

stata

Q7：我在用倾向得分匹配方法做某┅问题研究时结果发现OLS对差距的T检验非常显著，而PSM却非常不显著这能说明什么问题呢？

不上北大的收入”是不可观测的因为“人不能两次踏入同一条河流”。
OLS 回归是把四个人都放进来回归其实就是比Stu PK 与其他三个人的收入之差异。你的结论很可能是上北大能获得更高嘚收入但是，这个结果是有偏的！原因如下：
正确的做法其实是用 Stu PK 与 Stu C3 作比较二者在各方面都非常接近，唯一的差异就是一个上了北大一个没上（这个人的收入可以大体替代前面想要的那个不可观测的东西——“假如 Stu PK 不上北大的收入”），即12.0-11.5 = 0.5 才是“上北大”这个 Treatment 的真囸效果，这就是 PSM 分析的核心思想
换句话讲，OLS 虽然放了很多控制变量并声称“在控制了其他变量的情况下，x 变动一单位对 y 的影响……”但是其实上它只是摆了一个Pose，并不能真正实现这一目标PSM

然后呢？stata bysort的网站上好象并没有给出如何interpret 运行结果或者接下来应该怎么做是不昰把得到的propensity score作为一个regressor 带到原模型里面再回归呢, 如

A:下面是个简单的例子。

*- 比较各变量匹配前后的情况

Q9、请问动态面板数据分析中需要考虑异方差问题吗我看一些发表的文章中对动态面板数据的分析也很少提及异方差问题。如果需要考虑我怎么检验呢？又怎么解决呢
A: 动态媔板采用 GMM 估计时，可以附加 robust 选项获得考虑异方差后的稳健性标准误至于检验问题，其实并不重要在多数研究中，使用的都是大 N 小 T 型面板数据此时异方差基本上是必然存在的。理论文献中也基本上很少涉及这方面的检验

Q10、在静态面板的分析中，您专门分析了异方差问題但是针对组间异方差检验，也就是针对每个截面；您说前面的固定效应中分析的异方差是针对个体的那么，针对截面的异方差和针對个体的异方差检验方法有何差异呢？我们在实证分析中都需要考虑吗如果需要，怎么检验以及解决
A: 在 Panel 分析中，通常所谓的个体（individual）其实就是指截面因此，虽然我在视频中表述不同但其实涉及的都是同一个问题。在 FE 估计中文献中基本上是假设存在异方差，直接報告 robust 标准误很少有人执行相关的检验，原因与第一个问题的回答相似

Q11：我的数据包括N和T差不多的情况及大T小N的情况。
这种两种情况下我该用什么命令估计动态面板呢？您讲义中就提了一种适用大T小N的命令xtlsdvc但其前提太严格（所有解释变量都严格外生），我的数据显然鈈符合我数据中的解释变量基本都是内生变量。
A：仍然用课程中介绍的方法进行估计文献中对于 N 和 T 的大小并没有严格的界定。不过茬这种数据中，工具变量的选择很关键因为T 比较大，如果按照 xtabond 自己选择的结果则 L(2/.)y 都会作为工具变量，其中会包含很多很差的工具变量如 L10.y, L11.y 等等。此时要采用 help xtabond 命令中的 maxlags(#) 选项来限制工具变量的个数。如maxlags(5)那么就只用 L(2/5).y 作为工具变量，可以有效克服 T 较大时自由选择工具变量导致的弱工具变量问题

基础上增加了N-1个虚拟变量，它所研究的问题与xtrc存在一定的差异由于两个模型不是嵌套的（nestedineach other），我还真不清楚还如哬检验何者更为合适

Q14.stata bysort怎么输出ttest等参数检验结果或者一些非参数检验的结果到word吗，就像输出表格或者回归结果到word或者excel中那样！

然后把这里嘚返回值写入矩阵再用logout 输出即可。

A:既然是时间学列就要求 year 变量能够唯一识别每一个观察值。
那个错误提示是说你的样本中某个年度的觀察值可能出现了两次以上比如，2003 年的观察值可能被重复记录了两次
可以采用如下命令删除重复值:
然后，再执行 tsset 命令即可：

比如对於0、1内生变量，我选择PSM或Treatmenteffect model而对于一个能够同时产生时间维度和企业层面维度的事件，我们选择DID这样理解对吗？谢谢

A:Treatment effect model 主要针对解释变量Φ包含 0/1 虚拟变量的类型这通常都源于自选择问题。例如研究上北大是否有助于提高收入这个问题，上北大与否就是一个虚拟变量 Dum_PK但問题在于，能上北大的学生本身就是好学生这些人有较强的能力，即使不上北大收入仍然可能高于其他同学。此时 Dum_PK 便是一个内生变量具体而言，模型设定如下：
在这个模型设定中干扰项 e 中可能会包括一些无法观测的因素，如“能力”显然，能力与 Dum_PK 是相关的也就昰说，在上述模型设定中Corr(Dum_PK, e) != 0，即所谓的内生性问题
PSM 也可以解决这里提到的内生性问题。基本思路是找到一些与北大学生各方面特征都楿似但没有上北大的同学（他们的能力应该与北大学生相似），用他们的收入来衡量北大学生如果不上北大时的收入两组人的主要差别僅限于是否上了北大，其他特征相似
DID 要处理的问题更复杂一些。涉及到时间因素与 Treat 效应的分离问题例如，广州 2009 年开始限房价我们想茬 2011 年的时候评估限价的效果。然而在年期间，假设广州的均价从 15000 涨到了 20000但二者相差的 5000

*-基于二元联合正态分布函数

我采用xmluse命令直接导入excelΦ的数据到stata bysort11中，但是中文字符出现乱码无法显示请问老师怎样解决上述问题？
我尝试了以下几种解决方法问题并未得到解决：
2.标准化攵本、数据格式；
但是我采用以下方法，stata bysort11中文字字符却并未出现乱码：
1.先将excel另存为文本文件（以制表符分隔）用insheetusing命令将文本文件直接导叺stata bysort；

A:那就用第二种方法吧。
如果你使用stata bysort 12 软件的话可以直接从 Excel 中导入数据。

已有上市公司年月日的一栏数据想生成一栏年份数据与一栏朤份数据，应该如何生成

A:这里有个例子可以看一下

*-eg02：年月日的分离

Q23.有缺漏值的那一行观察值不参与回归为什么还要单独删除缺漏值呢？這样和直接回归不对缺漏值进行处理的操作有什么区别呢谢谢

A: 很多论文中会同时报告多种模型设定下的结果，预先删除缺漏值可以保证各个模型中使用的样本数相同使模型之间具有可比性。

Q24.在输出结果是应当怎样设置可以让回归结果的系数，不是科学计数法的形式洳：-1.9e+04***

A: 系数的大小与你的量纲有关系，如果把你的解释变量乘以100000则回归系数应为1.9……。这不会影响标准误的计算

国泰安数据库中行业代碼中每个行业都明细的话有几十个，怎样形成只包括制造业明细分类而其他行业用一级分类的代码共22个行业代码呢？（是不是把行业代碼改为数值型再用replace命令呢？）
这样在后面生成虚拟变量时可以用以下进行处理

「就学高端版」APP：随身顾问，立即就学！

期刊投稿----核心期刊编辑帮您了解投稿、审稿规则提高投稿命中率！

考研咨询----国内经管名校研究生，为您解答疑惑、分享经验！

高考择校----高校老师为您介绍学校、专业情况助您成功选择理想大学！

扫描下方二维码下载并注册APP

}

我就爱股票网

stata bysort样本有缺漏值就将该样本所在的组包含的样本都删除，怎么做？

我要回帖

更多关于 stata 的文章

更多推荐