structural rd.break什么意思思 计量经济学

两种思路。&br&&br&第一个是对数据进行 down sample,原始的高频数据虽然是非等间距的,你可以自己定义一个时间间隔重新抽样。这个时候需要注意的是在抽样的时候需要仔细设计方法来计算抽样点的各项数值(价格,成交量等)。简单的做法是用原始数据 fit 出一条曲线,然后按照新的时间点取曲线上对应的值,或者算抽样时间间隔内数据点的加权平均,权值可以是数据点之间的时间差,或者成交量之类。这种方法做完之后就可以用常用的时序模型的技术了。&br&&br&第二个就是所谓的 Point Process,直接对时间点进行建模(而非像时间序列模型是对抽样点的数据进行建模)。最简单的 Point Process 是一般概率统计课上都会教的 Poisson Process,它的特点是每次事件发生都是独立的,时间差复合指数分布。其它答案中提到的 ACD 是一种升级版,对事件间的时间差进行建模,刻画了事件之间会彼此影响的情况。这个模型技术上跟 ARMA 是一套,只不过把时间序列换成了事件序列的时间差而已。&br&&br&另外有一种 Point Process 族是对单位时间内事件发生的概率密度进行建模的,学术界研究比较多的一种叫 Hawkes Process,以前主要用来对地震的余震进行建模,后来大家觉得地震这玩意跟金融交易里的震荡也挺像,有一批人就尝试往过套。&br&&br&Hawkes Process 的思路是说历史上发生的事情对未来的概率密度函数有影响,只是随着时间流逝这种影响会逐渐减弱(Decay)。技术上就是做一个 Kernel,所有的历史事件都输入这个Kernel 来计算对未来的影响,Kernel本身做成 Decay 的形式就可以模拟衰减了。&br&&br&ACD 和 Hawkes Process 的比较也有人做过,比如这里 &a href=&///?target=http%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&Point Process 还有一个高级点的变种叫做 Masked Point Process,思路是把每个事件的相关数据作为标记(Mask)附加到时间点上,这样模型在对时间点建模的同时也兼顾了数据。而且这种标记可以是多个,对交易数据来说,价格,成交量,波动性等都可以作为标记。这样可以极大地大扩充模型的描述能力。&br&&br&总的来说这两种模型的路子都算做是 Q 宗。这种模型最大的问题在于,它的底层技术设计可以非常漂亮,各种数学性质都很完备,但是你把它往数据上一套,就会发现问题很多,很多时候连基本的统计检验都通不过。有一个原因是,这些模型本身的思路出发点非常好,但问题是数据质量很难保证,要是你拿到的是不知经过了几层处理的 N 手数据,就更是很难说清问题究竟出在哪(具体例子见 &a href=&///?target=http%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&)。要知道高精度的 timestamped 交易数据是相当难求的,但如果时间都不准的话又怎么上模型呢?&br&&br&当然虽然有这些困难,这也正是高频量化建模这个领域吸引人的地方,有难度才有挑战。既然现有的模型都不好用,就更是急需学术界的精英们赶快开发新模型。而如果从实际的角度说,我觉得策略的思路是比模型更重要的事情。毫秒级甚至以下这个尺度上,基本上就是统计套利和高频做市的天下,做别的我个人认为难度都会太大而不划算了。如果你的交易思路明确了,再选择什么模型其实就是按需决定而已,不要搞反了。
两种思路。 第一个是对数据进行 down sample,原始的高频数据虽然是非等间距的,你可以自己定义一个时间间隔重新抽样。这个时候需要注意的是在抽样的时候需要仔细设计方法来计算抽样点的各项数值(价格,成交量等)。简单的做法是用原始数据 fit 出一条曲线…
其他不表,因为太大,说了也是大空话。单说怎么让你觉得矩阵make sense。&br&&br&简单来说用矩阵是人比较懒,不想写成一大串。而且用矩阵做运算的时候还保留了一些数运算的规则和性质,所以用起来比较方便。举个最简单的例子:&br&&br&多元线性模型里假设有&img src=&///equation?tex=k& alt=&k& eeimg=&1&&个解释变量(包括constant),&img src=&///equation?tex=n& alt=&n& eeimg=&1&&个观察值,你把它全写出来会是神马样子呢?大概有这么大的一坨吧&br&&img src=&///equation?tex=%5Cbegin%7Beqnarray%7D%0A%5Cnonumber%0Ay_%7B1%7D%26%3D%26%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7B12%7D%2B%5Ccdots%2B%5Cbeta_%7Bk%7DX_%7B1k%7D%2Bu_%7B1%7D%5C%5C%0Ay_%7B2%7D%26%3D%26%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7B22%7D%2B%5Ccdots%2B%5Cbeta_%7Bk%7DX_%7B2k%7D%2Bu_%7B2%7D%5C%5C%0A%26%5Cvdots%26%5C%5C%0Ay_%7Bn%7D%26%3D%26%5Cbeta_%7B1%7D%2B%5Cbeta_%7B2%7DX_%7Bn2%7D%2B%5Ccdots%2B%5Cbeta_%7Bk%7DX_%7Bnk%7D%2Bu_%7Bn%7D%0A%5Cend%7Beqnarray%7D& alt=&\begin{eqnarray}
y_{1}&=&\beta_{1}+\beta_{2}X_{12}+\cdots+\beta_{k}X_{1k}+u_{1}\\
y_{2}&=&\beta_{1}+\beta_{2}X_{22}+\cdots+\beta_{k}X_{2k}+u_{2}\\
&\vdots&\\
y_{n}&=&\beta_{1}+\beta_{2}X_{n2}+\cdots+\beta_{k}X_{nk}+u_{n}
\end{eqnarray}& eeimg=&1&&&br&&br&那么怎么偷懒呢?首先想到的是我一行为什么要写那么多,能不能简化呢?回想一些向量点乘运算,我们就可以得到第&img src=&///equation?tex=t& alt=&t& eeimg=&1&&行可以写成&br&&img src=&///equation?tex=y_%7Bt%7D%3D%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A1%5C%5C%0AX_%7Bt2%7D%5C%5C%0A%5Cvdots%5C%5C%0AX_%7Btk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%5Ccdot%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A%5Cbeta_%7B1%7D%5C%5C%0A%5Cbeta_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0A%5Cbeta_%7Bk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%2Bu_%7Bt%7D%0A%3D%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A1%5C%5C%0AX_%7Bt2%7D%5C%5C%0A%5Cvdots%5C%5C%0AX_%7Btk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%27%5Ctimes%0A%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A%5Cbeta_%7B1%7D%5C%5C%0A%5Cbeta_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0A%5Cbeta_%7Bk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%2Bu_%7Bt%7D& alt=&y_{t}=\left[
\begin{array}{c}
\end{array}
\right]\cdot\left[
\begin{array}{c}
\beta_{1}\\
\beta_{2}\\
\end{array}
\right]+u_{t}
\begin{array}{c}
\end{array}
\right]'\times
\begin{array}{c}
\beta_{1}\\
\beta_{2}\\
\end{array}
\right]+u_{t}& eeimg=&1&&&br&&br&如果我们设&br&&img src=&///equation?tex=%5Cbm%7BX%7D_%7Bt%7D%3D%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A1%5C%5C%0AX_%7Bt2%7D%5C%5C%0A%5Cvdots%5C%5C%0AX_%7Btk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%27& alt=&\bm{X}_{t}=\left[
\begin{array}{c}
\end{array}
\right]'& eeimg=&1&&&br&&img src=&///equation?tex=%5Cbm%7B%5Cbeta%7D%3D%5Cleft%5B%0A%5Cbegin%7Barray%7D%7Bc%7D%0A%5Cbeta_%7B1%7D%5C%5C%0A%5Cbeta_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0A%5Cbeta_%7Bk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D& alt=&\bm{\beta}=\left[
\begin{array}{c}
\beta_{1}\\
\beta_{2}\\
\end{array}
\right]& eeimg=&1&&&br&那么第&img src=&///equation?tex=t& alt=&t& eeimg=&1&&行就可以写成&br&&img src=&///equation?tex=y_%7Bt%7D%3D%5Cbm%7BX%7D_%7Bt%7D%5Cbm%7B%5Cbeta%7D%2Bu_%7Bt%7D& alt=&y_{t}=\bm{X}_{t}\bm{\beta}+u_{t}& eeimg=&1&&&br&是不是比原来要写那么一长串简单多了。&br&&br&我们已经简化了一行,那么有没有办法直接把&img src=&///equation?tex=n%0A& alt=&n
& eeimg=&1&&行写成一个式子呢?有的。这就是矩阵的乘法。&br&&img src=&///equation?tex=%5Cbegin%7Bequation%7D%0A%5Clabel%7Beq1%7D%0A%5Cmathbf%7By%7D%3D%5Cmathbf%7BX%7D%5Cbm%7B%5Cbeta%7D%2B%5Cmathbf%7Bu%7D%0A%5Cend%7Bequation%7D%0Awhere+%24%5Cbm%7By%7D%24+and+%24%5Cbm%7Bu%7D%24+are+%24n-%24vectors%2C+%24%5Cbm%7BX%7D%24+is+an+%24n%5Ctimes+k%24+matrix%2C+and+%24%5Cbm%7B%5Cbeta%7D%24+is+a+%24k-%24vector.%0A%0A%5Cbegin%7Beqnarray%7D%0A%5Clabel%7Beq2%7D%0A%5Cbm%7By%7D%26%3D%26%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%0Ay_%7B1%7D%5C%5C%0Ay_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0Ay_%7Bn%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%2C%0A%5Cbm%7B%5Cbeta%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%0A%5Cbeta_%7B1%7D%5C%5C%0A%5Cbeta_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0A%5Cbeta_%7Bk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%2C%0A%5Cbm%7Bu%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%0Au_%7B1%7D%5C%5C%0Au_%7B2%7D%5C%5C%0A%5Cvdots%5C%5C%0Au_%7Bn%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%2C%0A%5Cend%7Beqnarray%7D%0A%0A%5Cbegin%7Beqnarray%7D%0A%5Clabel%7Beq3%7D%0A%5Cbm%7BX%7D%26%3D%26%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%0A1%26X_%7B12%7D%26%5Ccdots%26X_%7B1k%7D%5C%5C%0A1%26X_%7B22%7D%26%5Ccdots%26X_%7B2k%7D%5C%5C%0A%5Cvdots%26%5Cvdots%26%26%5Cvdots%5C%5C%0A1%26X_%7Bn2%7D%26%5Ccdots%26X_%7Bnk%7D%0A%5Cend%7Barray%7D%0A%5Cright%5D%0A%5Cend%7Beqnarray%7D& alt=&\begin{equation}
\label{eq1}
\mathbf{y}=\mathbf{X}\bm{\beta}+\mathbf{u}
\end{equation}
where $\bm{y}$ and $\bm{u}$ are $n-$vectors, $\bm{X}$ is an $n\times k$ matrix, and $\bm{\beta}$ is a $k-$vector.
\begin{eqnarray}
\label{eq2}
\bm{y}&=&\left[\begin{array}{c}
\end{array}
\bm{\beta}=\left[\begin{array}{c}
\beta_{1}\\
\beta_{2}\\
\end{array}
\bm{u}=\left[\begin{array}{c}
\end{array}
\end{eqnarray}
\begin{eqnarray}
\label{eq3}
\bm{X}&=&\left[\begin{array}{cccc}
1&X_{12}&\cdots&X_{1k}\\
1&X_{22}&\cdots&X_{2k}\\
\vdots&\vdots&&\vdots\\
1&X_{n2}&\cdots&X_{nk}
\end{array}
\end{eqnarray}& eeimg=&1&&&br&&br&如果题主能把这三种多元线性模型的表示方法看懂并能自己写一遍的话,那么就不会去怕矩阵表示了。之后如果碰到矩阵一下子看不懂的时候你就先展开,知道写成能看懂的数的运算,看它到底表示的是神马含义。&br&&br&题主其实不用重新去学一遍线代。这种高级计量的一般内容是把之前初中级计量下用求和公式表示的换成用矩阵,然后多一些证明。如果之前学过计量,基本概念都是一样的。&br&&br&我觉得伍德里奇那本中级计量书后面的数学附录足够了,即使对于题主现在学的。那本中级的书虽然正文都是用求和公式的,附录里还是有矩阵表示的内容。题主可以看一下,之后遇到不会的再查。
其他不表,因为太大,说了也是大空话。单说怎么让你觉得矩阵make sense。 简单来说用矩阵是人比较懒,不想写成一大串。而且用矩阵做运算的时候还保留了一些数运算的规则和性质,所以用起来比较方便。举个最简单的例子: 多元线性模型里假设有k个解释变量(…
GMM简直是计量的良心&br&它可以涵盖几乎所有常用的estimator&br&OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情况&br&所以LZ你说用简单的例子解释一下,我瞬间不知道该从何讲起......&br&因为GMM的应用......实在太尼玛广泛了&br&-------------------------------------------------------------------&br&LZ看样子是做宏观或者金融的,那我就来根据Hayashi的econometrics来大致解释一下GMM。&br&GMM是一个framework,本质是运用&b&矩条件&/b&,对参数进行估计。所以我们叫他广义矩估计。&br&我们现在线性模型&img src=&///equation?tex=y_%7Bi%7D+%3Dx%27_%7Bi%7D%5Cbeta+%2B%5Cvarepsilon+_%7Bi%7D& alt=&y_{i} =x'_{i}\beta +\varepsilon _{i}& eeimg=&1&&的框架下讨论,这样比较清晰。&br&假设y是因变量,x是原自变量,z是工具自变量(可以和原自变量一致,也可以不一致)&br&我们定义&img src=&///equation?tex=g_%7Bi%7D%3Dz_%7Bi%7D%2A%5Cvarepsilon+_%7Bi%7D& alt=&g_{i}=z_{i}*\varepsilon _{i}& eeimg=&1&&&br&所谓&b&矩条件&/b&,就是我们假设模型的真实参数和总体,满足这样一个条件:&br&&img src=&///equation?tex=E%28g%28z%2C%5Cbeta+%29%29%3D0& alt=&E(g(z,\beta ))=0& eeimg=&1&&&br&也就是&img src=&///equation?tex=E%28z_%7Bi%7D%2A%28y_%7Bi%7D-x%27_%7Bi%7D%5Cbeta+%29%29%3D0& alt=&E(z_{i}*(y_{i}-x'_{i}\beta ))=0& eeimg=&1&&&br&然后在这个条件下,我们用某种方法去估计参数&img src=&///equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&&&br&看上去是不是很混乱?OK让我们做一个小小的变换~~~&br&假设向量xi=zi,也就是说工具变量和自变量完全一样。这时候矩条件就变成了:&br&&img src=&///equation?tex=E%28x_%7Bi%7D%2A%28y_%7Bi%7D-x%27_%7Bi%7D%5Cbeta+%29%29%3D0& alt=&E(x_{i}*(y_{i}-x'_{i}\beta ))=0& eeimg=&1&&&br&回想起来这是啥了没?就是简单的线性投影条件呀!它的sample analogue是啥?就是OLS!&br&好,OLS首先被装到了GMM这个框里。&br&但是当zi不完全和xi一样的时候呢?那我们就得分类讨论了。&br&&br&1.如果zi里的变量数量小于xi,那就是under-identified(识别不足),这个时候我们没办法用GMM估计。(想想简单IV里最基本的估计条件就是IV数量比内生变量数量多)&br&&br&2.如果zi里的变量数量等于xi里的,那就是just-identified(恰好识别),这个时候我们的sample analogue和用样本估计参数的方法都很直接而且简单,就是用简单算术平均。&br&定义&img src=&///equation?tex=g_%7Bn%7D%3D%5Cfrac%7B1%7D%7Bn%7D+%2A%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7Bz_%7Bi%7D%2A%28y_%7Bi%7D-x%27_%7Bi%7D%5Cbeta%29+%7D+& alt=&g_{n}=\frac{1}{n} *\sum_{i=1}^{n}{z_{i}*(y_{i}-x'_{i}\beta) } & eeimg=&1&&&br&估计方法就是直接让&img src=&///equation?tex=g_%7Bn%7D%3D0& alt=&g_{n}=0& eeimg=&1&&,解出对应的&img src=&///equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&& 就好了,没啥花样儿。&br&所以我们很清楚可以看到,恰好识别的时候,GMM Estimator就是:&br&&img src=&///equation?tex=%5Chat%7B%5Cbeta+%7D+_%7BGMM%7D%3D%28%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7Bz_%7Bi%7Dx%27_%7Bi%7D%7D%29%5E%7B-1%7D%2A%28%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7Bz_%7Bi%7Dy_%7Bi%7D%7D+%29& alt=&\hat{\beta } _{GMM}=(\sum_{i=1}^{n}{z_{i}x'_{i}})^{-1}*(\sum_{i=1}^{n}{z_{i}y_{i}} )& eeimg=&1&&&br&是不是很熟悉?YES!就是简单的IV Estimator~&br&当zi=xi时,就直接变成OLS Estimator了。&br&&br&3.如果zi里的变量数量大于xi里的,那就是over-identified(过度识别),这就到了GMM不一样的地方了。这时候我们不能直接简单用&img src=&///equation?tex=g_%7Bn%7D%3D0& alt=&g_{n}=0& eeimg=&1&&的条件去求解&img src=&///equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&&了,因为这时候我们的矩条件比未知数要多,也就是说方程组里的方程数量比未知数多,一般情况下找不到解。咋办?那我们就找一个解得出来的方程组,并且要让&img src=&///equation?tex=g_%7Bn%7D& alt=&g_{n}& eeimg=&1&&&b&尽量“靠近”零&/b&。因为&img src=&///equation?tex=g_%7Bn%7D& alt=&g_{n}& eeimg=&1&&其实是空间里的一个点,所以我们这里用一个小技巧,把这种&b&靠近&/b&,定义为最小化&img src=&///equation?tex=g_%7Bn%7D& alt=&g_{n}& eeimg=&1&&这个点,和原点的空间距离。&br&我们定义&img src=&///equation?tex=J%28%5Chat%7B%5Cbeta%7D%2C%5Chat%7BW%7D%29%3Dn%2A+g%27_%7Bn%7D%28%5Chat%7B%5Cbeta%7D%29%5Chat%7BW%7Dg_%7Bn%7D%28%5Chat%7B%5Cbeta%7D%29& alt=&J(\hat{\beta},\hat{W})=n* g'_{n}(\hat{\beta})\hat{W}g_{n}(\hat{\beta})& eeimg=&1&&&br&这个J就是我们要的距离。W是一个对称且正定的矩阵,表示我们对这个空间距离的某种度量。当W=I的时候,我们定义的这个距离就是简单的欧式空间距离。&br&前面乘以一个n没啥别的意思,是为了某些统计量比较好算......&br&所以我们估计参数&img src=&///equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&&的方法就是:&br&&img src=&///equation?tex=%5Chat%7B%5Cbeta%7D_%7BGMM%7D%3Dargmin_%7B%5Chat%7B%5Cbeta%7D%7DJ%28%5Chat%7B%5Cbeta%7D%2C%5Chat%7BW%7D%29& alt=&\hat{\beta}_{GMM}=argmin_{\hat{\beta}}J(\hat{\beta},\hat{W})& eeimg=&1&&&br&取一个让距离最小的&img src=&///equation?tex=%5Chat%7B%5Cbeta%7D& alt=&\hat{\beta}& eeimg=&1&&,就得到了我们要的GMM估计量。简单求个导,解一下一阶条件我们就有了显性表达式:&br&&img src=&///equation?tex=%5Chat%7B%5Cbeta%7D_%7BGMM%7D%3D%28S%27_%7Bzx%7D%5Chat%7BW%7DS_%7Bzx%7D%29%5E%7B-1%7DS%27_%7Bzx%7D%5Chat%7BW%7DS_%7Bzy%7D& alt=&\hat{\beta}_{GMM}=(S'_{zx}\hat{W}S_{zx})^{-1}S'_{zx}\hat{W}S_{zy}& eeimg=&1&&&br&其中&img src=&///equation?tex=S_%7Bzx%7D%3D%5Csum_%7Bi-%3D1%7D%5E%7Bn%7D%7Bz_%7Bi%7Dx%27_%7Bi%7D%7D+& alt=&S_{zx}=\sum_{i-=1}^{n}{z_{i}x'_{i}} & eeimg=&1&&,&img src=&///equation?tex=S_%7Bzy%7D%3D%5Csum_%7Bi-%3D1%7D%5E%7Bn%7D%7Bz_%7Bi%7Dy_%7Bi%7D%7D+& alt=&S_{zy}=\sum_{i-=1}^{n}{z_{i}y_{i}} & eeimg=&1&&&br&这就是单方程GMM的一般解。&br&当我们选取不同的W矩阵,也就是选择不同的空间距离度量时,GMM会变成各种我们熟悉的estimator,比如2SLS等等。&br&以上是关于线性模型的。&br&&br&更一般的GMM,其实差别不是很大,无非是去掉了矩条件是线性的这个假设。这时候我们有:&br&&img src=&///equation?tex=E%28g%28x%2C%5Cbeta+%29%29%3D0& alt=&E(g(x,\beta ))=0& eeimg=&1&&&br&x是自变量,&img src=&///equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&&是真实参数&br&同样我们也是最小化一个空间距离:&br&&img src=&///equation?tex=J%28%5Chat%7B%5Cbeta%7D%2C%5Chat%7BW%7D%29%3Dn%2A+g%27_%7Bn%7D%28%5Chat%7B%5Cbeta%7D%29%5Chat%7BW%7Dg_%7Bn%7D%28%5Chat%7B%5Cbeta%7D%29& alt=&J(\hat{\beta},\hat{W})=n* g'_{n}(\hat{\beta})\hat{W}g_{n}(\hat{\beta})& eeimg=&1&&&br&&img src=&///equation?tex=%5Chat%7B%5Cbeta%7D_%7BGMM%7D%3Dargmin_%7B%5Chat%7B%5Cbeta%7D%7DJ%28%5Chat%7B%5Cbeta%7D%2C%5Chat%7BW%7D%29& alt=&\hat{\beta}_{GMM}=argmin_{\hat{\beta}}J(\hat{\beta},\hat{W})& eeimg=&1&&&br&只不过在具体求解的时候,如果g是一个很复杂的非线性函数的话,那就不一定有解析解,需要用数值逼近,然后渐进方差要用delta method计算。(这块general的GMM具体操作方法我也不是很了解,hayashi和hansen的书上也都没有太多介绍,可以咨询 &a data-hash=&c9cee996cdef11fc& href=&///people/c9cee996cdef11fc& class=&member_mention& data-hovercard=&p$b$c9cee996cdef11fc&&@慧航&/a& )&br&&br&以上是最基本的GMM内容,从0开始定义。更多的重要内容,包括最优权矩阵,多方程GMM等等,还是看书吧~&br&推荐Bruce Hansen的Econometrics,里面关于GMM的章节很精练,适合快速阅读快速理解,并且是基于iid sample假设&br&Hayashi的Econometrics对GMM的介绍非常全面,适合进阶阅读,基于ergodic stationary假设,偏时间序列。&br&&br&参考:&br&Hayashi, Econometrics&br&Bruce Hansen, Econometrics&br&&br&&br&大晚上打字好累,送大家一只萌妹纸&br&&img src=&/85f33d425ec_b.jpg& data-rawwidth=&400& data-rawheight=&300& class=&content_image& width=&400&&
GMM简直是计量的良心 它可以涵盖几乎所有常用的estimator OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS.........全是它的特殊情况 所以LZ你说用简单的例子解释一下,我瞬间不知道该从何讲起...... 因为GMM的应用......实在太尼玛广泛了 ------------…
楼主你好,我跟你同级。&br&我已投一篇SCI一区未退,改稿中,准备出国。&br&&br&楼主既然会R和Matlab,那应该也是对金融工程有所兴趣,就差选题就可以开始做东西了。&br&自学计量推荐古扎拉蒂的教材,但是搞科研也可以不看,国内的硕士博士论文是最好的教科书。&br&&br&我就说一下我的研究过程吧,给楼主一个参考。&br&&br&选题&br&大一下,班主任组织了一个学术讨论组,主要就是让班里学霸们了解一下科研是个什么鬼,每半个月请同学们喝一次咖啡,普及了一些实用的时间序列的基本模型。&br&老师暑假留了个附加作业,实现Jump GARCH,给了几个论文。当时其中只有一篇研究生的毕业论文我能看懂,而我以为作业必须得做,就花了一个多星期把他论文结果复现了一下,交作业了。&br&老师收到作业震惊了,因为他也在做还没做出来我就交上了,就建议我发论文。&br&&br&看文献&br&我打算出国嘛,想着就好好弄弄发个牛逼点的吧,就开始没命的找资料,把有关的基准文献的模型全都自己推导了一遍,又粗略的看了看最近几年的被引较多的文章的摘要,就能画出这个方向的模型地图了,大概用了一个多月吧。&br&大二开学数模国赛,学会了用Mathematica,事实证明这货真是推导公式的好帮手。&br&&br&模型实现&br&我对这些流行的模型又分析了一下,就选定了一个看上去高大上但是自己感觉逻辑上并不靠谱的模型和比较精确的研究方法,开始码程序,这个过程很痛苦,白天又得上课,晚上宿舍还断电,连续俩月每天熬到晚上三点半电脑没电,熬得早上上课眼睛睁不开老撞电线杆。&br&结果出的也很辛苦,因为对于有些数据这个模型很管用,我又自己模拟了不少时间序列,才发现这个模型的奥秘,然后推导了一下,能指出他这玩意对谁不靠谱,为什么不靠谱来。&br&于是一个小牛人就这样被我给砸了场子。&br&&br&码文章&br&然后就码文章了,码文章也挺头疼的,我是码完中文的,然后翻译一遍,把所有话都用同样的被动句式说。然后找基准文献,按照大牛人Duffie的表达方式把所有的术语都改了,然后找了个外院研究英国历史的老师给润色了一下。这个说慢慢说快也快,也就不到一个星期吧。&br&返得倒是挺快,一个来月就返回来了,因为我想发坏到底吧,就直接投给当时发了那个小牛人的文章的杂志了。垫脚石大哥辛苦你了。&br&估计我写得实在太简略,这么大个的东西我才写了二十多页,现在返回来就是让我把一些内容说得详细点,再表达的通透点,再多加几组数据。我就当练写作了。。&br&审稿人还问我真的没有别的作者吗?我直接给他回了我那两大本子推导草稿纸和自己一部分代码的图片,他就老实了,还告诉我他是UCSD的副教授,一瞬间感觉套磁都容易了许多。Granger已经去了,我想去LSE。。&br&&br&&br&&br&&br&前前后后至少有五个月的时间,我是吃饭睡觉走路都在想这个。&br&&br&前头的学长学姐说的不错,导师的确有用,我要有个导师我也不至于自己画模型地图,但是人永远只能自救,最重要的还是你在这件事上花了多少精力,以及你的效率有多高。&br&而且以国家项目高低分辨导师程度,对于自然科学管用,对金融不管用,因为有些项目是因为涉及西部大开发啥的而被报上的,实际并不高大上。&br&&br&对了,还是要提高效率。&br&一旦选题,你至高无上的目标就是把它弄好,而不是学数学学编程。&br&我也没学过复变,我就导那一个公式,就需要一丢丢复变,所以找个数学的同学问一下就可以了,没必要特特的把这门课学了,适可而止。&br&还有,刚开始看文献难免一头雾水,论文内容艰深而又文字酸涩,信息量大,很恶心。但是俗话说书读百遍其意自现,张嘴念论文是一个有神奇效果的阅读方法,看不懂公式可以先放着,因为数学不重要,重要的是逻辑。&br&&br&祝楼主早日开题。
楼主你好,我跟你同级。 我已投一篇SCI一区未退,改稿中,准备出国。 楼主既然会R和Matlab,那应该也是对金融工程有所兴趣,就差选题就可以开始做东西了。 自学计量推荐古扎拉蒂的教材,但是搞科研也可以不看,国内的硕士博士论文是最好的教科书。 我就说一…
首先说点估计。点估计就是用一个数据(data)的函数(通常称为估计统计量,estimator)来给出一个未知参数的估计值。&br&&br&即使是固定的参数真值(虽然我们不知道这个值),由于数据的随机性,不同的数据代入这个函数往往会得出不同的估计值(estimation )。所以我们往往在点估计的基础上包裹上一个邻域,即得到一个区间估计。&br&&br&那么点估计周围的这个邻域的大小是怎么确定的呢?一个最直接的答案就是:确定一个百分比,p%,使得给定任意数据集,参数的估计值(estimation)落在这个邻域内的概率为p%。那么,确定邻域大小的问题就变成了确定参数估计量(estimator)的分布的问题了。&br&&br&首先,如果我们假设数据服从正态分布。那么可以证明,统计量作为随机变量的函数,往往会服从从正态分布中推导出来的一系列分布(如t分布,chi-square分布和F分布),那么通过统计量(estimator)的分布,我们可以很轻松的得到所求邻域的大小。&br&&br&接下来的问题就是,在日常生活中,数据并不一定服从正态分布的。如果数据不是正态分布的,那么估计统计量(estimator)很可能也不服从t分布,chi-square分布和F分布这些我们已知的分布。如果我们不知道统计量的分布,就无法确定应该给这个点估计包裹一个多大的邻域。&br&&br&于是我们退而求其次,由于在满足一定正则条件的情况下,很多数据的分布都会在数据量趋近于无穷的情况下趋近于正态分布。如果数据的分布恰好落在这个范围内,那么我们说,在数据量趋近于无穷的前提下,我们仍然相信统计量服从t分布,chi-square分布和F分布这些我们已知的分布。并以此为基础得到区间估计。而中心极限定理(CLT)就是用来保证数据分布的极限为正态分布的定理。&br&&br&*更正:CLT说的是&i&样本均值&/i&的极限分布。估计量一般可以表示成样本均值的函数(e.g. OLS,GMM) 所以知道了样本均值的极限(正态)分布也就知道了这些估计量的极限分布。于是我们就可以计算区间估计中的区间了&br&&br&最后,如果正则条件不满足,CLT无法适用。数据分布即使在数据量趋于无穷的情况下仍然不是正态分布,这时候,采用传统方法得到区间估计的办法就行不通了。需要采用更加先进的方法(比如bootstrapping寻找区间估计;比如彻底抛弃parametric model转用semi- non-parametric model等等)。&br&&br&编辑*:其实CLT不单单在找区间估计的时候用到。很多假设检验的问题都依赖于统计量(或者数据等)的分布是正态分布这一假设。所以如果假设统计量本身就是正态的,那么当然可以以这些统计量为基础进行假设检验。但是如果分布不是正态的,那很有可能就需要CLT来帮助(至少建立在极限状态下的正态性)证明假设检验(包括区间估计)的正当性:因为如果统计量不是正态的,那么得出来的东西根本对不上号,假设检验也就没啥大意义了。
首先说点估计。点估计就是用一个数据(data)的函数(通常称为估计统计量,estimator)来给出一个未知参数的估计值。 即使是固定的参数真值(虽然我们不知道这个值),由于数据的随机性,不同的数据代入这个函数往往会得出不同的估计值(estimation )。所…
本科国内top2经济方向,北美top 15 Econ PhD在读。读PhD的时间不长切身感受不太明显,而且由于在国内国外读书的阶段不同目标也不一样,不太能够根据自身的经历来具体分析差距在哪里,只能是泛泛的说一点认识甚至是猜测,还求轻拍。&br&首先总体印象上感觉,师资上的差距还是存在的,这应该是最实在也是最重要的地方吧。据我所知美帝比较顶尖的经济学项目的老师大部分手里都是攥着top 5发表的,而在国内的老师平均的论文发表水平,即便是清北比之美帝也是有比较明显差距的。当然只用论文发表来衡量研究能力可能有失客观,但是作为通行的标准总能够反映一些问题。而以终身教职的评定标准来看,国内顶尖经济系的终身教职的审核通过标准也比美国的学校低不少。相比于本科学知识更多,教学水平的比重更大,PhD期间很多时候更加重要的是整个系的科研氛围水平包括交流和思想的整个开放程度。导师的研究水平整个院系的研究氛围很多时候能很大的影响到学生的整个研究的感觉。而普遍的研究水平,单从经济学来说还是差的很多的。&br&另一方面,感觉地缘也是一个很重要的因素吧。最简单的例子,现在的主流期刊都是英文的吧,你展示论文要和别人argue也是要用英文的吧,中国的学生博士教育全中文的话出国参加会议很容易出现表达思想不顺畅等等情况。不是说用英语多么好,而是,想要做出出色的成果,很多时候大量的交流与争论必不可少,国外的项目客观上给你提供了一个你不得不把英语水平提高起来的环境。另外,美国的PhD项目都会有各种各样的seminar,请各个地方的教授或者各路学者来展示论文,大家讨论,碰撞都非常激烈。当然国内也有,可是考虑到出色的经济学家目前大批聚居在美国,人家在国内飞总比出个境再倒时差方便得多对吧,包括在各个学校之间人员流动做访问学者,地缘都是很大的影响因素。所以说这种地缘的集聚效应带来的整体的抱团情况也使得整个水平上出现一些差距。&br&然后,还有一些文化背景的因素也是要考虑的,拿public finance举例子吧,这个学科现在主要的研究系统包括税制都是基于美国来展开的,外国人研究起来就是会相对难一点。再比如劳动经济学,很多时候你觉得有趣的话题,不同文化背景的人就觉得无聊。这本来是文化差异的东西,其实已经不好讲是不是差距了。但是就像流行音乐一样,总有个主流或者大家都去做的东西,审稿人也有倾向会根据他的口味来决定文章是不是好文章。这些东西都是会影响到整个系研究成果这种外显的东西的,这种外显的研究成果对于整个系集聚资源等等又是一个正向激励。这个与其说是国内顶尖大学的差距,不如说是美国作为经济学研究目前的大本营,它本国的经济系所带有的天然优势吧,颇有一种我说了算大家都要跟着我的规矩走的感觉。&br&&br&其实说到最后,我觉得学生大概是差距最不明显的一个方面了,我在国内的同学们有些经济学的直觉并不比这边的同学稍差,而在美国接触的同学也一样有数理基础好的爆炸的存在。我想原因可能是申请PhD的个体都会注重自己在这两方面的培养,所以有所专长但是不会出现太大的差距。毕竟大部分PhD项目还是会要求两者并重的,至少要达到基本水平才行咯。&br&&br&&br&所以说中国的经济学教育很烂大概有些过激,不过差距的存在和本土的博士难以出现大牛也是需要正视的事实。不管怎么样都希望国内的教育能越来越好&br&&br&PS,没上过EJMR,不过听同项目的同学说里面还是有很多过于负能量的信息和不太准确的言辞的,题主看看就好,莫要过分当真
本科国内top2经济方向,北美top 15 Econ PhD在读。读PhD的时间不长切身感受不太明显,而且由于在国内国外读书的阶段不同目标也不一样,不太能够根据自身的经历来具体分析差距在哪里,只能是泛泛的说一点认识甚至是猜测,还求轻拍。 首先总体印象上感觉,师…
从估计方法上来讲:&br&初级:OLS, MLE&br&中级:IV, GMM, RDD, DID, quantile regression...&br&高级:Bayesian, MCMC, Empirical Likelihood, Simulation based estimators, semiparametric and nonparametric, semi-nonparametric .... &br&&br&从检验方法来讲:&br&初级:t value, p value, F statistics, R^2 .....&br&中级:
Hausman test, over-identification test, structural break....&br&高级:各种 optimal test, when a parameter presents only under the alternative, bootstrap, subsampling, exact test, &br&&br&从数据类型来讲:&br&初级:cross section&br&中级:time series, panel data, VAR, multiple equations, nonlinear models&br&高级:unit root, co-integration (ECM), high dimensional panel data, high frequency, continuous time, spatial.....&br&&br&从识别(identification)问题来讲&br&初级:基本忽略&br&中级:怎么找 instrument &br&高级:semiparametric and nonparametric identification, partial identification, weak identification &br&&br&从模型思想方法来讲:&br&初级:reduced-form &br&中级:reduced-form &br&高级:structural (e.g., dynamic games, dynamic discrete choice, DSGE).&br&&br&从所需主要数学工具来讲:&br&初级:basic matrix algebra, mathematical statistics &br&中级:Law of large numbers, central limit theorem, Slutsky's theorem....&br&高级:Empirical processes, functional analysis........
从估计方法上来讲: 初级:OLS, MLE 中级:IV, GMM, RDD, DID, quantile regression... 高级:Bayesian, MCMC, Empirical Likelihood, Simulation based estimators, semiparametric and nonparametric, semi-nonparametric .... 从检验方法来讲: 初级:t …
这个问题问得很好啊,Abadie,Athey,Imbens和Wooldridge四位计量经济学巨牛2014年有一篇论文主要就是讲这个事儿(Abadie et al., 2014, Finite Population Causal Standard Errors)。他们举的例子是,美国的州总共就50个,所以任何以州为单位的回归都不涉及抽样的过程,也就是题主说的“以总体为数据”。比如我们感兴趣的问题是,年平均气温是否对经济发展有影响,那么是不是用各州的人均GDP对年平均气温做个回归,得到的系数就是确定无疑的答案,从而其显著性没有什么意义了呢?&br&&br&答案是否定的。原因在于,我们想知道的并不是气温高的州是不是比气温低的州经济更加发达,而是原本气温高的州如果气温降低了,其经济增长会受到怎样的影响(前者只是“描述”,即相关性,后者才是“推断”,亦即因果性)。换言之,可以想象在某个平行宇宙中,由于造物主的手一抖,加州变成了寒冷的州,而阿拉斯加四季如春,那么两地的发展会发生怎样的变化呢?&br&&br&显然,在每一个这样的平行宇宙中,我们都可以得到一个GDP对气温的回归系数,系数的大小会随着该宇宙中各州气温的实际分布而有所不同。在统计学和计量经济学里,所有这些平行宇宙的总和被称为“超总体(superpopulation)”,而我们观察到的这个总体(即五十个州及其气温和GDP状况),可以被视为从超总体中抽出的一个样本。由此得到的回归系数标准误,则说明了气温对GDP的真实效应在超总体中分布的离散程度。如果标准误小,显著性高,就意味着如果随机地给各州分配一次气温,我们观察到的结果有很大的可能接近目前的情况。否则,目前的情况则更应该被视作是由偶然因素引发的意外。&br&&br&其实这也正是Fisher随机检验的基本思想:在得到估计值之后,我们可以把自变量再重新分配给每个个体,基于零假设和每次分配的结果,我们都能算出一个新的估计值;最后只需要看看原始估计在整个估计值分布中的位置,就能知道显著性(p值)是多少了。
这个问题问得很好啊,Abadie,Athey,Imbens和Wooldridge四位计量经济学巨牛2014年有一篇论文主要就是讲这个事儿(Abadie et al., 2014, Finite Population Causal Standard Errors)。他们举的例子是,美国的州总共就50个,所以任何以州为单位的回归都不涉…
注:本答案仅提供本人对各种收敛的直观理解,以便读者更直观地了解各种收敛的联系。如果想了解更理论的部分,强烈推荐Yang的答案。&br&&br&&ul&&li&&b&&u&分布收敛(convergence in distribution):&/u&&/b&&/li&&/ul&&b&定义:&/b&&br&&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&依分布收敛至X,记作&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{d}{\rightarrow}X& eeimg=&1&&,意味着:&img src=&///equation?tex=F_n%28x%29%5Crightarrow+F%28x%29& alt=&F_n(x)\rightarrow F(x)& eeimg=&1&&,对于所有F的连续点x。&br&&br&也就是说,当n很大的时候,&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&的&b&累积函数&/b&和X的&b&累积函数差不多&/b&。&br&&br&直观上而言,依分布收敛只在乎随机变量的&b&分布&/b&,而不在乎他们之间的&b&相互关系&/b&。&br&&br&举例而言,倘若已知&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{d}{\rightarrow}X& eeimg=&1&&,假设&img src=&///equation?tex=Y%3D-X& alt=&Y=-X& eeimg=&1&&。对于任意一个发生的事件,Y与X的取值正好差了一个负号。但这并不影响X与Y有相同的累积函数,即&img src=&///equation?tex=F_X%28z%29%3DF_Y%28z%29& alt=&F_X(z)=F_Y(z)& eeimg=&1&&。如此一来,&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DY& alt=&X_n \overset{d}{\rightarrow}Y& eeimg=&1&&。更一般的情况而言,只要X与Y有相同的累计函数,即same distributed,即使&img src=&///equation?tex=P%28X%3DY%29%3C1& alt=&P(X=Y)&1& eeimg=&1&&,也有&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DY& alt=&X_n \overset{d}{\rightarrow}Y& eeimg=&1&&。因为依分布收敛仅仅在乎分布,而不在乎相互之间的关系。&br&&br&&ul&&li&&b&&u&概率收敛(convergence in probability):&/u&&/b&&/li&&/ul&&b&定义:&/b&&br&&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&依概率收敛至X,记作&img src=&///equation?tex=X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{P}{\rightarrow}X& eeimg=&1&&,意味着:&img src=&///equation?tex=P%28%7CX_n-X%7C%5Cleq+%5Cvarepsilon+%29%5Crightarrow+1& alt=&P(|X_n-X|\leq \varepsilon )\rightarrow 1& eeimg=&1&&,当&img src=&///equation?tex=n%5Crightarrow+%5Cinfty& alt=&n\rightarrow \infty& eeimg=&1&&,&img src=&///equation?tex=%5Cforall+%5Cvarepsilon+%3E0& alt=&\forall \varepsilon &0& eeimg=&1&&。&br&&br&也就是说,当n很大的时候,对任意发生的事件,&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&的&b&值&/b&和X的&b&值差不多&/b&,即&img src=&///equation?tex=%7C%28X_n-X%29%28%5Comega+%29%7C& alt=&|(X_n-X)(\omega )|& eeimg=&1&&很小。&br&&br&直观上而言,依概率收敛在乎的是&b&随机变量的值&/b&。&br&&br&这样说来,前面依分布收敛的例子如果套在概率收敛上就会出现问题。如果&img src=&///equation?tex=X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{P}{\rightarrow}X& eeimg=&1&&,但对于任何一个与X分布一样的Y,但&img src=&///equation?tex=P%28X%3DY%29%3C1& alt=&P(X=Y)&1& eeimg=&1&&,&img src=&///equation?tex=X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DY& alt=&X_n \overset{P}{\rightarrow}Y& eeimg=&1&&一定不成立,因为X与Y只是分布相同,而值不同。但反而言之,如果&img src=&///equation?tex=X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{P}{\rightarrow}X& eeimg=&1&&,即它们的值都差不多了,那么它们的分布一定也差不多,即&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{d}{\rightarrow}X& eeimg=&1&&。因此,依概率收敛比依分布收敛要强,即&img src=&///equation?tex=X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DX%5CRightarrow+X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{P}{\rightarrow}X\Rightarrow X_n \overset{d}{\rightarrow}X& eeimg=&1&&。&br&&br&但在某种情况下,取值就可以确定分布。即X取某个常数的情况下。此时X的取值和X的分布唯一确定。即此时会有依分布收敛和依概率收敛等价,即&img src=&///equation?tex=X_n+%5Coverset%7Bd%7D%7B%5Crightarrow%7Dc%5CLeftrightarrow+X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7Dc& alt=&X_n \overset{d}{\rightarrow}c\Leftrightarrow X_n \overset{P}{\rightarrow}c& eeimg=&1&&。&br&&br&&ul&&li&&b&&u&Lp收敛(convergence in Lp):&/u&&/b&&/li&&/ul&&b&定义:&/b&&br&&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&依Lp收敛至X,记作&img src=&///equation?tex=X_n+%5Coverset%7BL_p%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{L_p}{\rightarrow}X& eeimg=&1&&,意味着:&img src=&///equation?tex=E%28X_n-X%29%5Ep%5Crightarrow+0& alt=&E(X_n-X)^p\rightarrow 0& eeimg=&1&&,当&img src=&///equation?tex=n%5Crightarrow+%5Cinfty& alt=&n\rightarrow \infty& eeimg=&1&&,&img src=&///equation?tex=p%5Cgeq+1& alt=&p\geq 1& eeimg=&1&&。&br&在p=2时即为均方收敛。&br&&br&直观上而言,均方收敛在乎的也是&b&随机变量的值&/b&,但其要求比依概率收敛更加严格。&br&&br&之所以更加严格,是因为概率测度可以被均方测度所限制,其思想可以近似由Chebyshev不等式看到。&img src=&///equation?tex=P%28%7CX-%5Cmu%7C%5Cgeq+%5Cvarepsilon+%29%5Cleq+%5Cfrac%7BE%28X-%5Cmu%29%5E2%7D%7B%5Cvarepsilon+%5E2%7D& alt=&P(|X-\mu|\geq \varepsilon )\leq \frac{E(X-\mu)^2}{\varepsilon ^2}& eeimg=&1&&。因此&img src=&///equation?tex=X_n+%5Coverset%7BL%5E2%7D%7B%5Crightarrow%7DX%5CRightarrow+X_n+%5Coverset%7BP%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{L^2}{\rightarrow}X\Rightarrow X_n \overset{P}{\rightarrow}X& eeimg=&1&&.&br&&br&&ul&&li&&b&&u&几乎处处收敛(convergence almost surely):&/u&&/b&&/li&&/ul&&b&定义:&/b&&br&&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&几乎处处收敛至X,记作&img src=&///equation?tex=X_n+%5Coverset%7Ba.s.%7D%7B%5Crightarrow%7DX& alt=&X_n \overset{a.s.}{\rightarrow}X& eeimg=&1&&,意味着:&img src=&///equation?tex=P%28X_n%5Crightarrow+X%29+%3D+1& alt=&P(X_n\rightarrow X) = 1& eeimg=&1&&,当&img src=&///equation?tex=n%5Crightarrow+%5Cinfty& alt=&n\rightarrow \infty& eeimg=&1&&。&br&&br&直观上而言,几乎处处收敛在乎的也是&b&随机变量的值&/b&,但其要求也比依概率收敛更加严格。&br&&br&如果没有接触过实变函数的知识,几乎处处收敛对于连续型随机变量可能比较难以理解。我们这边用离散型随机变量进行直观解释,以避免0测度下的一些问题。&br&&br&对于&img src=&///equation?tex=X_n%5Csim+Ber%28p_n%29& alt=&X_n\sim Ber(p_n)& eeimg=&1&&,即以概率&img src=&///equation?tex=p_n& alt=&p_n& eeimg=&1&&取1,其余为0的随机变量。其依概率收敛到1意味着,&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&和1的值都&b&差不多&/b&,而且&b&随着n越来越大,不相等的概率越来越小&/b&。转而言之,&b&出现0的概率越来越小,极限为0&/b&。但几乎处处收敛至1要求,存在N,&img src=&///equation?tex=n%3EN& alt=&n&N& eeimg=&1&&时,&img src=&///equation?tex=X_n%3D1& alt=&X_n=1& eeimg=&1&&,即&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&和1的值都&b&在n很大时必须相等&/b&,即&img src=&///equation?tex=X_n& alt=&X_n& eeimg=&1&&取0的概率在某个N后必须为0。前者限制其尾部概率收敛至0,但后者限制尾部概率为0。&br&&br&&b&&u&结论:&/u&&/b&&br&&b&&u&(1)几乎处处收敛和Lp收敛最强,依概率收敛其次,依分布收敛最弱。&/u&&/b&&br&&b&&u&(2)几乎处处收敛和Lp收敛并无推导关系。&/u&&/b&&br&&b&&u&(3)在收敛到常数时,依概率收敛和依分布收敛等价。&/u&&/b&&br&&br&题外话:在我学概率的时间里,其实我只用到过最弱的收敛,依分布收敛。感觉很多定理,如:大数定理(LLN)和中心极限定理(CLT)都只用到它。但或许是我只是一个小硕,这些东西并不完全弄得明白。所以还希望各位不吝赐教。(? o?_o?)?
注:本答案仅提供本人对各种收敛的直观理解,以便读者更直观地了解各种收敛的联系。如果想了解更理论的部分,强烈推荐Yang的答案。 分布收敛(convergence in distribution):定义: X_n依分布收敛至X,记作X_n \overset{d}{\rightarrow}X,意味着:F_n(x)\ri…
&p&随机性都没有了显著性就无从谈起。&br&因为显著的定义就是原假设为真的情况下,统计量比观察值更extreme的概率 (p-value) 小于某个预设的level,比如0.05。如果总体已经观察到了,样本的获得没有随机性,也谈不上概率了。&/p&&p&当然现实中很少有获得“总体”的情况,要不不现实,要不问题本身就没什么意义了。&br&另外一种情况是总体中每个subject的outcome有测量误差且不可忽略,这也会带来随机性。这时候问题实际上关乎modeling层面了。&/p&&p&&br&&/p&&p&-----------------------------------------------------------------------&br&被编辑收录的高票答案我个人不能完全同意。主要不同意的地方在于回归的范围很广,有很多模型不依赖变量的正态假设,比如有些semi-parametric model甚至不做具体的分布假设,但是仍然可以讨论回归参数的显著问题。那位答主也给我留了言,我的理解是他回答的问题是“如果研究者把样本当作总体会出现什么情况”,或者&总体作为数据的情况是否可能出现”。这些都是有意义的问题,但是我不确定是否是题主提出的问题“如果总体作为数据,那么回归的显著性还有意义吗”。&/p&&p&另外不同意的地方是其答案中暗示当样本足够大时,可以假设正态分布。这和一个比较广泛的关于中心极限定理的误解有关,也特别容易对不太了解统计的人士造成误解:中心极限定理的描述对象是独立同分布的变量之和或平均值,而不是变量的总体分布本身。比如掷硬币,不管重复多少次,结果都只能是两面之一(忽略其它罕见情况),但是正面朝上的总数近似于正态。所以对于二元变量有对应的模型(比如Logistic Regression),对于heavy-tailed的变量也有相应的方法,等等。&/p&&p&&br&&/p&&p&-------------------------------------------------------------------&br&另一个答案回答的问题其实是“如果观察到总体,能不能得出因果关系即causality”。可是题目问的是显著性,不是因果性。因果关系是另一个范畴的问题。是无论有没有观察到总体都存在的问题。通过和答主的进一步交流,我们发现主要分歧在于他所说的population是包括了所有可能的treatment assignments及结果,即他领域内所谓superpopulation。但是我认为名词之间不应该混淆。既然已经有“超总体”(superpopulation)对应这个概念,在我们谈论总体(population)的时候,就应该能够确认谈论的不是超总体,否则这两个名词就失去了专属的意义。&/p&&p&因果关系确实不能轻易得出,因为观察不到counterfactuals,即同一个subject如果其它条件都不变,得到的treatment是未观察到的那个,outcome是否不同,即所谓平行宇宙会出现什么情况。王同学给出了一篇很有意思的paper,大家如果对causal inference有兴趣可以去读一下。&/p&&p&但是那个答案最后对permutation test的说法也有待商榷。如果已经观察到Y了,test的时候再怎么重新分配treatment,counterfactuals也观察不到了,因果关系也不能得出。除非一开始设计实验的时候做随机分配,或者拿到数据后想办法adjust可能的confounder。要不然大家研究causality那么费劲干嘛,直接把数据拿来做permutation test不就完了。&/p&&p&还有用X的随机性教育我的,一般来说X是effect的ancillary,其分布不依赖回归系数,做inference的时候会先conditioning on X,将其视为常数。求p-value时统计量里面的涉及X的项也视为常数。这也是统计课本上很少有讨论X分布的原因。&/p&&p&有一个例外是有新的观测进入样本要做预测,这时候X的方差就需要考虑进来了。但是题主问的是已知population,不存在新观测的问题。&/p&&p&&br&&/p&&p&-------------------------------------------------------------------------&/p&
随机性都没有了显著性就无从谈起。 因为显著的定义就是原假设为真的情况下,统计量比观察值更extreme的概率 (p-value) 小于某个预设的level,比如0.05。如果总体已经观察到了,样本的获得没有随机性,也谈不上概率了。当然现实中很少有获得“总体”的情况,…
这个问题看我的专栏&a href=&/ecopaper/& class=&internal&&Regression and causation: a critical examination of six econometrics textbooks - EcoPaper - 知乎专栏&/a&&blockquote&&p&Bryant Chen and Judea Pearl (UCLA)对市面上的六本比较流行的计量经济学(中级)教材进行了比较。其比较标准是对现代计量经济学中因果分析的描述是否合理,即是否区分了因果于相应的统计概念。&/p&&p&文章发现Wooldridge的书(导论)、Stock and Watson的书在处理因果方面还是比较靠谱的。似乎这也符合现在教材的流行趋势。&/p&&/blockquote&&p&如果是初学,看来&b&伍德里奇(导论)&/b&和&b&斯托克沃森&/b&的书的确靠谱。&/p&&p&如果是高级计量经济学,微观计量就看&b&伍德里奇的横截面与面板数据&/b&吧。&/p&&p&如果是应用计量,&b&Angrist的Mostly harmless econometrics&/b&,有中文版,叫&b&《基本无害的计量经济学》&/b&,应用计量必读!&/p&&p&时间序列吗,Enders的《&b&应用计量经济学时间序列&/b&》比较适合初学,汉密尔顿的书是百科全书。此外我还推荐Brockwell的《&a href=&///?target=http%3A///link%3Furl%3Dva_GUyEbudmbdkhhHkFYgcWkpg56svhditL_WxBe0-4sbTfv9MReP890jdgRxIGLQrib7_idAFSn_4S4DRLORSjwzeTsSRLOR0RcBs8FFT69koZvkHI_L22BdMjfinks& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Time Series Theory And Methods&i class=&icon-external&&&/i&&/a&》,适合有一定数学基础的。&/p&
这个问题看我的专栏Bryant Chen and Judea Pearl (UCLA)对市面上的六本比较流行的计量经济学(中级)教材进行了比较。其比较标准是对现代计量经济学…
随便说几句。题主的问题是,不知道为什么会存在内生性。所以题主迷惑的并不是为什么断点回归可以处理内生性问题,而是对内生性这个概念本身就有疑惑。&br&&br&什么是内生性呢?对于最简单的线性回归:&br&&img src=&///equation?tex=y%3Dx%27%5Cbeta%2Bu& alt=&y=x'\beta+u& eeimg=&1&&&br&而言,很多人知道,内生性指的是x和u存在某种程度的相关性,我想这是很多人最开始认识的「内生性」的概念。&br&&br&然而,这只是一个笼统的概念。我们观察不到u,所以根本无从得知x和u究竟是否有相关性,因而根据这个概念去判断内生性,必须从理论上找到x和u相关的原因。这一部分的知识是主观的、先验的、来自于理论模型的,而非来自于数据的。&br&&br&因为观察不到u,我可以指责任何一个回归存在内生性问题,然而空口无凭,能够指出内生性的来源才是有充分建设性的。&br&&br&如果回顾一下经济学的第一课,应该学过「内生变量」和「外生变量」两个概念。内生变量是指模型内部决定的,而外生变量是指模型不能决定的其他变量。&br&&br&注意同一个变量在不同的模型中即可能是内生变量,也可能是外生变量。比如工资水平,当我们建模劳动市场均衡的时候,工资是内生变量,因为工资是在模型内由劳动供给和劳动需求联合决定的。而当考虑劳动供给问题的时候,对于每个个人而言,工资则可能是外生给定的。&br&&br&那么这里的「内生变量」跟计量中的「内生变量」是一回事情么?在很大程度上,是的。&br&&br&就像我刚刚提到的,u和x是否相关是不能被观测的,判断是否有内生性需要有一个先验于数据的理论。这个理论不一定是严格的经济学模型描述的,也有可能是使用统计模型描述的,比如度量误差问题:&br&&img src=&///equation?tex=y%3Dx%5E%2A%5Cbeta%2Bu%2Cx%3Dx%5E%2A%2Bv%2CE%28u%7Cx%29%3D0& alt=&y=x^*\beta+u,x=x^*+v,E(u|x)=0& eeimg=&1&&&br&x为观察到的数据,x*为真实的变量,那么&img src=&///equation?tex=y%3Dx%5E%2A%5Cbeta%2Bu%3Dx%5Cbeta-v%5Cbeta%2Bu%2C+E%5Bx%28u-v%5Cbeta%29%5D%3D%5Cbeta+Exv%5Cne+0& alt=&y=x^*\beta+u=x\beta-v\beta+u, E[x(u-v\beta)]=\beta Exv\ne 0& eeimg=&1&&&br&在这里,当存在度量误差时,x之所以内生是因为x*的度量误差的特殊结构引起的。在这里,我们建模了观察到的数据:x的生成过程,x是模型中内生决定的。&br&&br&其他的,诸如联立方程、遗漏变量、样本选择、自选择等,都是同样的道理。一个变量之所以内生,是因为这个变量在相应的理论模型中是内生决定的,所以才导致了x和u的相关性。&br&&br&回过头来说断点回归。断点回归一般是政策评价的一个方法,之所以在这里会有内生性问题,是因为一般来说,参与某个政策是由经济个体自己决定的,而非外生指定的。&br&&br&一个最简单的想法,比如我们想知道读不读博士对个人收入的影响。如果个人的收入由一下的方程决定:&br&&img src=&///equation?tex=Income%3DH%28D%2Cu%29& alt=&Income=H(D,u)& eeimg=&1&&&br&其中D为读不读博的决策,u为一个扰动项。但是读不读博这个决策是由个人做出的,只有读博的收益大于不读博的收益时,个体才会选择读博:&br&&img src=&///equation?tex=D%3D1%5BH%281%2Cu%29%3EH%280%2Cu%29%5D& alt=&D=1[H(1,u)&H(0,u)]& eeimg=&1&&&br&所以在这里,由于存在自选择问题,D和u实际上是相关的,而u又是不能观测的,所以才会产生内生性。我们想估计的平均处理效应:&br&&img src=&///equation?tex=E%5BH%281%2Cu%29-H%280%2Cu%29%5D& alt=&E[H(1,u)-H(0,u)]& eeimg=&1&&&br&因为只能观察到一个H,且u和D相关,所以就没办法识别了。&br&&br&而断点回归呢?一个好处是,在断点回归里面,D是外生的。对于sharp RD而言,如果研究者能够找到一个应用例子,使得其中D满足:&br&&img src=&///equation?tex=D%3D1%28x%3Ea%29& alt=&D=1(x&a)& eeimg=&1&&&br&这里x是一个完全外生随机的变量,那么我们就可以在a附近构建出counterfactural,从而识别出在这个点附近的处理效应。Fuzzy RD几乎同理,相当于找到了一个外生的工具变量。&br&&br&比如 &a data-hash=&a28f322df563f37d4b35b& href=&///people/a28f322df563f37d4b35b& class=&member_mention& data-tip=&p$b$a28f322df563f37d4b35b& data-hovercard=&p$b$a28f322df563f37d4b35b&&@LCHEN&/a&的例子,由于经济个体不能控制分数的具体数值,在断点处其variation是外生的影响分数的随机因素,所以在断点处不存在内生性问题,除非理论上有充足的理由显示,在分数线前后的学生,有其他的、影响结果变量的不可观测变量也存在一个断点。&br&&br&所以,不忘初心,方得始终,每个学科第一节所上的内容都是最重要的内容,只是在学习的过程中暂时没办法理解,只有回过头来仔细思考才能知道第一节课的奥妙所在。
随便说几句。题主的问题是,不知道为什么会存在内生性。所以题主迷惑的并不是为什么断点回归可以处理内生性问题,而是对内生性这个概念本身就有疑惑。 什么是内生性呢?对于最简单的线性回归: y=x'\beta+u 而言,很多人知道,内生性指的是x和u存在某种程度…
按我们系头头的说法 计量是被包含与统计学之中的一门学科 它以数学为基础(包括概率与求导一类,这两门是重中之重 一定要打下坚实的基础)应用于各个领域。在搭好基础的前提下 你才有可能继续学习计量经济学下面的分支。计量经济学的分支有很多 应用计量 金融计量 微观计量 宏观计量 时序分析 贝叶斯计量以及计量经济学原理等等等等一系列东西,很多方向之间是有共性的 &br&&br&当你打好基础往下学习的情况下 可能会碰到某一个方向比较难理解 比如你学金融计量的时候会发现可能你不知道什么是Order of Integrating 一本书或者一个方向通常不可能面面俱到 这时候你可以多查查文献 &br&&br&计量经济的学习理解程度我觉得对我来说就像一个一个开口向下的二次函数,一开始是很感兴趣的但是很多东西理解的不好 后来学的内容越来越多了发现很多东西是想通的 发现其实不是难 而是你有很多东西不知道 了解多了自然对后续学习有帮助了 比如说应用计量,时间序列加上计量经济学原理的学习就对金融计量的学习很有帮助,金融计量的学习又对应用计量很有帮助,他们是相辅相成的。但是parametric model玩儿多了 你就想玩儿高端的 比如贝叶斯计量和金融计量后期 包括 semi 或者 non parametric 这时候难度又上来了 因为他对你的抽象思维和数学能力又有很大的要求 所以又开始比较痛 &br&&br&关于书籍,计量经济学习我觉得 建议学习计量用英文版教材而不要用中文版 说实话用中文学有些时候表达会更复杂且难理解 因为我所在学校的计量专业还不错 所以很多时候一门课的教材都不是来自一本书 有时候是好几本书的几部分加上一部分文献 这都取决于老师的习惯&br&&br&如果有时间和能力的话 多度一些文献并作出总结 和提出问题 会对你今后的学习与研究做出非常大的帮助&br&&br&计量学到后面对programming有很大的需求 如果你想在计量或者数量方面长期发展的话 建议开始就从STATA或者R来入手, eviews简单易上手可以满足基础需求 但是可塑性比较差 早早的建立良好的编程习惯对你日后是有很大帮助的 也节省时间 SAS对金融方向的学生也是很powerful的,stata貌似经济方向的使用比较多 例如微观计量。&br&&br&可能有说的不到位的地方 但是这就是目前我学了三年计量的感受 还请大家多多指教
按我们系头头的说法 计量是被包含与统计学之中的一门学科 它以数学为基础(包括概率与求导一类,这两门是重中之重 一定要打下坚实的基础)应用于各个领域。在搭好基础的前提下 你才有可能继续学习计量经济学下面的分支。计量经济学的分支有很多 应用计量 金…
诶,这个好像是我们专业的啊?我来稍微数一下,可能不全,欢迎补充。&br&&br&&ol&&li&Heckman and McFadden,两位共享了2000年诺贝尔经济学奖,以表彰其在微观计量方面的创造性贡献,包括但不仅限于离散选择、样本选择等模型,其研究成果成为了现在微观计量很多领域的奠基之作。&/li&&li&Sims,2011年诺奖得主,现代宏观计量领域的奠基人之一,特别是VAR等模型在宏观经济学中的应用。&/li&&li&Hansen,2013年诺奖得主,你可以不搞资产定价,但是作为一个经济学研究人员,你敢说你没听说过GMM吗?&/li&&li&Engle,2003年诺奖得主,我想每个搞金融计量的都知道ARCH/GARCH。&/li&&li&Pakes,在empirical IO领域有很多开创性的工作,比如demand estimation中的BLP以及production function estimation里面的OP方法。&/li&&li&Lung-fei Lee,有极深的传统计量功底,最接近诺奖的华人之一,最近在空间计量领域有巨大贡献。&/li&&li&Angrist and Imbens,在简约式估计有非常多的贡献。&/li&&li&Peter Phillips,在传统时间序列方面有不可替代的位置。&/li&&/ol&&br&总结一下,能拿诺奖的都不是单纯做计量理论的,多多少少都跟经济学理论有关系,也就是说,能拿诺贝尔经济学奖,首先得是个经济学家。而像White, Hausman等人虽然贡献都是非常大的,但是其最大的贡献似乎都没有以上获诺奖的几位在经济学方面有那么深的含义,这可能是一个劣势吧。
诶,这个好像是我们专业的啊?我来稍微数一下,可能不全,欢迎补充。 Heckman and McFadden,两位共享了2000年诺贝尔经济学奖,以表彰其在微观计量方面的创造性贡献,包括但不仅限于离散选择、样本选择等模型,其研究成果成为了现在微观计量很多领域的奠基…
开一个脑洞,我们以一个不那么计量的问题讲一下什么是「过度识别」。&br&&br&我们假想这么一个问题。在一块平地上,有两个基站,一个人手持接受设备可以测量到基站的距离,两个基站的坐标分别为:(0,0), (10,0)&br&&img src=&/028d2f7f4cc24eeb2f945162bed66cc7_b.png& data-rawwidth=&1234& data-rawheight=&946& class=&origin_image zh-lightbox-thumb& width=&1234& data-original=&/028d2f7f4cc24eeb2f945162bed66cc7_r.png&&现在假想,如果一个人站在(2,0)处,那么可以测量出到两个基站的距离分别为2和8,联立:&br&&img src=&///equation?tex=x%5E2%2By%5E2%3D4& alt=&x^2+y^2=4& eeimg=&1&&&br&&img src=&///equation?tex=%28x-10%29%5E2%2By%5E2%3D64& alt=&(x-10)^2+y^2=64& eeimg=&1&&&br&可以解出唯一解,即(2,0),我们称这种有唯一解的情况为「恰好识别」。&br&&br&然而,这个恰好识别的情况出现的非常特殊。比如仍然是这两个基站,如果一个点位于(6,3):&br&&img src=&/84e1107bbabc98bc947912adc24e21c6_b.png& data-rawwidth=&1232& data-rawheight=&898& class=&origin_image zh-lightbox-thumb& width=&1232& data-original=&/84e1107bbabc98bc947912adc24e21c6_r.png&&那么同样解方程:&br&&img src=&///equation?tex=x%5E2%2By%5E2%3D45& alt=&x^2+y^2=45& eeimg=&1&&&br&&img src=&///equation?tex=%28x-10%29%5E2%2By%5E2%3D25& alt=&(x-10)^2+y^2=25& eeimg=&1&&&br&很可惜,在这种情况下,设备不能确保自己在(6,3)还是(6,-3)的位置,这种有不止一个解的情况,我们称之为「不能识别」。&br&&br&有什么解决办法呢?如果我们在除去x轴的任何一个地方放一个新的基站,比如在(10,0)处放一个新的基站:&img src=&/2e5b97efa921e44d84e4_b.png& data-rawwidth=&1386& data-rawheight=&1086& class=&origin_image zh-lightbox-thumb& width=&1386& data-original=&/2e5b97efa921e44d84e4_r.png&&&br&这个时候,我们联立三个方程:&br&&img src=&///equation?tex=x%5E2%2By%5E2%3D45& alt=&x^2+y^2=45& eeimg=&1&&&br&&img src=&///equation?tex=%28x-10%29%5E2%2By%5E2%3D25& alt=&(x-10)^2+y^2=25& eeimg=&1&&&br&&img src=&///equation?tex=x%5E2%2B%28y-10%29%5E2%3D85& alt=&x^2+(y-10)^2=85& eeimg=&1&&&br&这个时候,解唯一了,三个圆确定一个点,仍然能达到「恰好识别」。&br&&br&什么是「过度识别」呢?如果我们有第四个基站,比如在(10,10)这个位置:&br&&img src=&/f1d17eea1a2db_b.png& data-rawwidth=&1284& data-rawheight=&944& class=&origin_image zh-lightbox-thumb& width=&1284& data-original=&/f1d17eea1a2db_r.png&&现在我们有四个基站都可以用来测量,联立四个方程,仍然能得到未知的位置坐标。&br&&br&然而我们很清楚,如果测量是准确的,只用三个基站就可以了。只是如果测量是有误差的,比如对四个点测量的距离为:(28,49, 82, 68),真实值为(25,45,85,65),那么任意三个或者全部四个没有一个唯一的交点:&br&&img src=&/e9f23ba225ebcd0d934d9d6d3b691a8c_b.png& data-rawwidth=&1280& data-rawheight=&944& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&/e9f23ba225ebcd0d934d9d6d3b691a8c_r.png&&这个时候可以使用一定的算法(比如简单的取任意两个圆的两个交点中距离最近的三个点的几何平均)估算出位置坐标。可以想象,基站越多,对于自身位置的信息也越多,对于位置坐标的估算就越准确。&br&&br&讲到这里,那么问题来了,为什么还要做「过度识别检验」呢?&br&&br&我们之前的结论都是建立在所有基站都是work的,或者都是真实的假设下。但是有没有一种情况,有人用了假的基站误导你的定位呢?&br&&br&比如在(10,10)的基站是假的,距离这个基站的距离本来是√65,但是假基站却告诉你距离为3,那么在计算坐标的时候,如果不加以检验,很容易被这个假基站误导:&br&&img src=&/76dc56e603b497cafb4200_b.png& data-rawwidth=&1030& data-rawheight=&946& class=&origin_image zh-lightbox-thumb& width=&1030& data-original=&/76dc56e603b497cafb4200_r.png&&如何检验呢?&br&&br&其实思路很简单。我先用任意三个基站计算一个位置。虽然由于度量误差的存在,使用任意三个基站计算的位置不可能一模一样,但是应该大差不差(没有显著差别)。但是,当存在假基站的时候,使用假基站跟其他任意两个基站计算出来的位置应该是差了很多的(有显著差别),那么这个时候就需要怀疑一下是不是有基站作假了。&br&&br&&br&现在回到计量上,如果你把每个基站看成是一个总体的估计条件,把自己的位置看成是要估计的参数,那么其实恰好识别就是刚好估计有唯一解的情况,而过度识别就是你有了更多的条件,方程数大于未知数的情况。而过度识别检验就是为了检验是不是所有的条件都是对的,既然有更多的条件去估计参数,那么用不同的估计条件估计出来的参数是不是大差不差,相互印证的?如果是,那么很好,更多的条件很多时候可以提高估计精度;如果不是,那么很有可能估计的条件有的是不对的。&br&&br&至于具体的例子,可以看:&a href=&/question//answer/& class=&internal&&能否用简单的例子解释下什么是 Generalized Method of Moments (GMM)? - 慧航的回答&/a&
开一个脑洞,我们以一个不那么计量的问题讲一下什么是「过度识别」。 我们假想这么一个问题。在一块平地上,有两个基站,一个人手持接受设备可以测量到基站的距离,两个基站的坐标分别为:(0,0), (10,0) 现在假想,如果一个人站在(2,0)处,那么可以测量出到…
简单来说是酱&br&&br&&b&Y = &/b&&b&β&/b&&b&0&/b& +&b& β&/b&&b&1 A +β2 X+β3 A*X+ ε&/b&&br&A对Y有影响&br&X对Y有影响&p&&b&β3&/b&&b& :&/b&&b&X对Y的影响,因A变化而变化。&/b&&/p&&br&&p&如果按照一楼的例子,性别是A,学历是X,收入是Y,那么就如同下图。&/p&&p&如果女的是1 男的是0 &br&&/p&&img src=&/3be5d85de402a414fd5525_b.jpg& data-rawwidth=&360& data-rawheight=&243& class=&content_image& width=&360&&&br&&p&β2:对于男性,学历对收入的影响&br&&/p&&p&β2+β3:对于女性,学历对收入影响&/p&&br&&br&&p&β3就是两线的斜率差&/p&&p&β1他们的截距差(性别对收入的影响)&/p&
简单来说是酱 Y = β0 + β1 A +β2 X+β3 A*X+ ε A对Y有影响 X对Y有影响β3 :X对Y的影响,因A变化而变化。 如果按照一楼的例子,性别是A,学历是X,收入是Y,那么就如同下图。如果女的是1 男的是0 β2:对于男性,学历对收入的影响 β2+β3:对于女性,…
谢两位邀请。 &a data-hash=&7be7dd0db8c5fd& href=&///people/7be7dd0db8c5fd& class=&member_mention& data-tip=&p$b$7be7dd0db8c5fd& data-hovercard=&p$b$7be7dd0db8c5fd&&@iGuo&/a&说的差不多了,多说几句。&br&&br&数学方面,数学分析、高等代数和概率统计是必须的。目前据我了解国内很多的本科计量经济学课程&b&推导部分&/b&以一元的回归分析为主,主要原因可能是数学分析对于向量的微积分并没有太多介绍,然而其实这并不难。建议学有余力把格林的Econometric Analysis的附录看懂就可以了。&br&&br&学习计量要不要学习推导?我的建议是要的。即使是最基础的推导,也能加强你对计量方法的理解。读文献的时候,经常会碰到有些文章用奇奇怪怪的回归办法,熟悉推导你可以轻易识破他们玩的tricks,自己写论文的时候也可以知道怎么做有意义,怎么做没意义。&br&&br&经济学方面,越多越好。多数人学计量是要做应用而非做统计理论的,所以计量经济学最终是要跟经济学理论紧密结合的。无论是微观的消费者行为、厂商行为、博弈还是宏观、产业、国际贸易,所有这些领域都可以跟计量联系起来。很多模型,比如比较简单的SUR、联立方程、自选择等的问题,如果没有经济学的背景是很难理解这些模型的motivation。&br&&br&至于编程,我赞同我妈从小对我的教育,叫做「技不压身」。比如我经常用到的软件有stata, julia, C, python,每个语言有每个语言的优势,做不同的问题用最好用的工具。可以先从比较简单的语言开始学。编程是需要动手训练的,不是看书就能学会的,没事写点小项目练练手,很快就学会了。&br&&br&此外经常有人有个误区,就是把学习计量经济学跟学习软件等同起来。这是非常非常非常错误的。学会了软件并不能告诉你碰到什么样的问题要用什么样的工具,更不能告诉你你的计量模型究竟有什么问题,在学术方面,懂个软件算个p。&br&&br&而反过来,计量理论学好了,像stata这种软件根本没必要专门去学,花一下午时间学一下基本语法,help可以解决一切问题,剩下的就是练习了。
谢两位邀请。 说的差不多了,多说几句。 数学方面,数学分析、高等代数和概率统计是必须的。目前据我了解国内很多的本科计量经济学课程推导部分以一元的回归分析为主,主要原因可能是数学分析对于向量的微积分并没有太多介绍,然而其实这并不难。建议…
首先你要定义什么是社会科学经验研究的“因果性”。&br&&br&我猜测题主心目中的“因果性”大概是指 treatment effects?这是 &a href=&///?target=https%3A//en.wikipedia.org/wiki/Rubin_causal_model& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Rubin's causal framework&i class=&icon-external&&&/i&&/a& 对于“因果性”的一种定义,即所谓 &no causation without manipulation&。社会科学过去对于这部分内容关注不足,但是近 20 年来随着经济学中 design-based research,尤其是随机对照试验的兴起,在这方面与某些自然科学的差距正在逐渐缩小。事实上,在实证微观中,除了少数“冥顽不化”的领域(如 IO),这套框架正在成为当前的主流。&br&&br&不过 treatment effects 这种“因果性”存在的最大问题是所谓的 INUS 因果 (insufficient but non-redundant part of a condition which is itself unnecessary but sufficient for the occurrence of the effect),今年的“诺”奖得主 Angus Deaton 对此有过一个精彩的诠释:&a href=&///?target=https%3A//youtu.be/2Js-AxZcmr8%3Ft%3D1h7m& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&youtu.be/2Js-AxZcmr8?&/span&&span class=&invisible&&t=1h7m&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&。所以从传统经济学的角度来看,这样的“因果性”对于我们解释现象背后的机制帮助有限。&br&&br&近 10 年来,另一位“诺”奖得主 James Heckman 提出了要光复 Haavelmo's structural framework,即通过思维实验对“输入”进行 hypothetical manipulation 来决定“输出”。这里的核心思想是严格依照理论模型来推导经验模型。一旦理论模型被确定了,那么“因果性”就被确定了。这种“因果性”是抽象于经验世界中所观察到的现象的,即所谓 &causality is in the mind&。但是这套框架同样存在问题,那就是在实际操作中理论模型往往不是一个对现实很好的描述,此时的“因果性”对于现实世界的意义也就不大了。&br&&br&顺便提一下,我的回答&a href=&/question//answer/& class=&internal&&计量经济学所谈论的「因果」是什么意思? - 知乎用户的回答&/a&提供了对上述问题在技术上的一些说明。&br&&br&最后,无论社会科学经验研究使用了哪一种“因果性”的概念,其识别过程中都存在着不可检验的假设(untestable assumptions)。例如 Rubin's framework 下的稳定单位干预值假设(SUTVA),即使是随机对照实验也不能豁免。
首先你要定义什么是社会科学经验研究的“因果性”。 我猜测题主心目中的“因果性”大概是指 treatment effects?这是
对于“因果性”的一种定义,即所谓 "no causation without manipulation"。社会科学过去对于这部分内容关注不…
&p&i详见Miguel hernan和James robins还未出版的causal inference, harvard官网能免费下载&/p&&p&还有guido imbens和don rubin的causal inference for statistics, social and biomedical sciences: an introduction&/p&&p&以及judea pearl的causality。&/p&&p&三本书籍由简到难。&/p&&br&&br&&p&因果关系推断的最根本问题在1986年Paul holland发表于jasa的statisics and causal inference这篇文章中已经指出。简单的说,打个比方,要看一个新药的效果,我们得比较一个人吃了药和不吃药的结果。但是问题是我们只能观察到两个结果中的一个, 要么吃药要么不吃药。所以其中一个未被观察到的结果被称之为counterfactual (反现实的,或者叫平行宇宙)。现在causal inference就是在这个counterfactual framework(也叫potential outcomes)下发展的,开发出了很多统计模型和方法,但都需要额外的假设。&/p&&p&统计方法:&br&流行病学里有g computation, inverse probability weighting, propensity score matching等&br&经济学里有instrumental variable, difference in difference, regression discontinuity等&br&还有一些其他方法,targeted maximum likelihood learning, super learner等&/p&&p&流行病学的方法主要侧重于: correctly measure and adjust for confounders &br&经济学的方法主要侧重于:exploit the sources of randomness without measuring the confounders.&/p&&p&评论里有人提到,靠统计结果得到因果关系,岂不是缘木求鱼?我想强调的是,我们并不是只靠统计模型来取得因果关系。就像前面提到的,这些新的统计模型,都是需要额外的假设的。例如流行病学的大部分统计方法都是建立在no unmeasured confounding (或者从计量经济学术语说,no unobserved covariates)这个假设之上的,这些假设都是依赖以往的expert knowledge的。通过Expert knowledge和大量的文献并且采集足够多的covariates数据, 如果认为所用模型的假设靠得住(也叫做correct model specification),再去跑模型做结论。同理,即使在经济学通过exploit sources of randomness来的方法,还是需要各种假设和expert knowledge。例如instrumental variable, 我们同样需要假设instrument和outcome之间是unobserved covariates的。所以,我们不只靠统计模型,还得靠emprical or expert knowledge来决断所用的模型假设是否靠谱,然后再去做因果推断。
这也是我认为人工智能无法代替的一部分,expert knowledge很难被机器替换。&/p&&br&&p&其实不需要复杂的统计方法,随机双盲实验这个研究设计就能解决causal inference的很多问题,但是随机试验一方面不适用于很多问题(价格昂贵,道德因素等一些现实因素(比如说让人随机分配到抽烟组,这违反ethics)), 另一方面随机试验本身在实施方面也存在很大问题。具体请参考:&a href=&/question//answer/& class=&internal&&为什么知乎对大样本随机双盲实验如此重视? - 海马的回答 - 知乎&/a&&/p&&br&&p&另外现在虽说大数据时代,但是不能盲目相信大数据。大数据不能解决一切,尤其不能解决因果推断的问题。而且恰恰相反,大数据时代的来临更需要因果关系的准确推断。希望有时间能具体聊下这个问题。感兴趣者也可以查看2015年在美国科学院举办的Sackler Colloquium: Drawing Causal Inference from Big D &a href=&///?target=http%3A//www.nasonline.org/programs/sackler-colloquia/completed_colloquia/Big-data.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Drawing Causal Inference from Big Data&i class=&icon-external&&&/i&&/a&
Youtube上也有相关视频视频。&/p&&p&还有现在人工智能和cognitive sciences,也有很多做因果推断研究的(例如上面推荐的judea pearl,就是图灵奖获得者)。causal inference, graphical models, decision theory,artificial intelligence之间有着错综复杂的关系。&/p&&br&&br&&p&今天刚听了斯坦福 GSB经济学教授Susan Athey 在duke的讲座, 讲machine learning for personalized causal effects. 有时间把讲的内容列一下。&/p&&img src=&/v2-c54428b7cfb330aa174c5d_b.jpg& data-rawwidth=&960& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&960& data-original=&/v2-c54428b7cfb330aa174c5d_r.jpg&&
i详见Miguel hernan和James robins还未出版的causal inference, harvard官网能免费下载还有guido imbens和don rubin的causal inference for statistics, social and biomedical sciences: an introduction以及judea pearl的causality。三本书籍由简到难。 …
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 break是什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信