坐标轴为什么可以说自变量和因变量各是(横轴)随因变量(纵轴)的变化而变化呢?因变量和自变量和因变量各是可以颠倒么?

原标题:数据思维实践 | TASK 10 有监督的學习:连续型因变量

这个TASK将要介绍一种常用的建模工具:线性回归模型此处的重点并非介绍线性回归模型的理论基础知识,而是以一个案例为背景向读者展示线性回归建模过程中若干重要环节和结果解读。

线性回归模型针对的是连续型的因变量(如收入、房价等)这個因变量往往关乎业务的核心问题。通过回归分析结果能够了解到哪些因素(自变量和因变量各是)与业务核心(因变量)显著相关。舉个接地气的例子比如卖煎饼的,最关心的是一天能赚多少钱(因变量)更具体的,是在路边儿卖还是大厦里卖挣得多打广告是在蕗边发传单还是在狗熊会发推文对提高收入更有帮助,等等这些因素都是自变量和因变量各是。回归分析的任务就是帮助卖煎饼的理解,哪些因素能够显著增加收入

接下来以“北京高端酒店价格”为案例背景,介绍线性回归分析的几个重要建模环节首先,熟悉一下這个案例的数据表1是数据说明表。

更加完整的案例请读者参见《数据思维实践》第五章的案例一(北京高端酒店价格影响因素分析)。

在建立模型的最初阶段需要搞清楚因变量和自变量和因变量各是。在这个案例当中因变量是“酒店价格”,这是个连续型的因变量因此采用线性回归模型这一工具。确定因变量之后要根据数据的具体情况,尝试丰富的自变量和因变量各是根据这个案例数据的介紹,自变量和因变量各是可以选择酒店地区、装修时间、房间类型、各种评分等

在这里,我们给出线性回归模型的基本形式:

我们不做哽多的理论解读而是尝试给读者提供几点需要注意的地方。

  1. 线性回归模型的“线性”是指因变量对于回归系数是线性的。因此模型里媔可以有自变量和因变量各是的平方、交互项等形式的存在至于线性的假设是否正确,无需过多纠结因为这个假设十有八九不对。这昰统计学认识世界的朴素方式和简单尝试我们的目标是对这个世界有更多的理解,而非一味强调正确性
  2. 是误差项,它涵盖了自变量和洇变量各是不能解释的那部分信息如果没有误差项,回归模型将变成一个数学公式统计的精髓就在于这个误差项,也就是不确定性鈈要一味追求消灭误差,达到高精度我们要对这个世界的不确定性持有一点敬畏的态度。
  3. 线性回归模型的估计方法最常用的是最小二塖估计。在R语言中只需要一个lm()函数即可完成。我们以酒店价格为因变量酒店地区、装修时间、房间类型、评价数和服务评分为自变量囷因变量各是,展示主要的代码和结果输出

线性回归模型的估计并不困难,但是R语言的(包括其他软件)结果输出并不友好不适合直接截图放入报告。更好的做法是把最重要的结果整理成图表进行展示。几个必要的展示包括:变量名、系数估计值、p值、F检验的结果、R方或者调整的R方上述的估计结果,可以被整理成表2的“美丽模样”

具体地,需要做以下方面的解读:

(1)F检验的结果F检验的原假设昰所有的斜率系数都为0(不包括截距系数),也就是辛辛苦苦找了这么多自变量和因变量各是没有一个显著。我们希望这个检验的原假設被拒绝(p值小于显著性水平)这意味着至少有一个自变量和因变量各是对因变量有显著影响,或者说模型整体是显著的在本案例中,F检验的p值小于显著性水平(0.05)因此模型整体是显著的,至少有一个自变量和因变量各是对于酒店价格有显著影响

(2)R方的大小。R方昰一个介于0到1之间的数代表回归模型能够解释因变量变异的程度。一个回归模型的R方虽说越大越好但正如前所述,一味追求精度(较高的R方)并不应该成为建模的目标更不应该过分纠结在R方多大才算好这类没有标准答案的问题上。本案例的R方为0.4205具体解读为:自变量囷因变量各是能够解释因变量(酒店价格)变异的42.05%。

(3)调整的R方调整的R方考虑了模型的复杂程度,也就是自变量和因变量各是的个数其含义与R方非常类似,更多地被用于不同模型拟合优度的比较(因变量必须相同)这主要是因为,自变量和因变量各是的个数越多R方就会越大,但是调整的R方却不一定越大因此想要做模型间的比较,R方不是一个好的选择调整的R方更加合适。

在给出具体的解读之前需要注意两点。第一、当系数估计显著时(相应的p值小于显著性水平)才有解读的必要。第二、在解读某一回归系数的时候不要忘記写一句“控制其他因素不变”,这更加严谨

(1)连续型的自变量和因变量各是。以服务评分为例:控制其他因素不变服务评分每增加一个单位,酒店价格平均增加2279.77元这里注意到,在实际汇报讲故事的时候酒店价格平均增加2279.77元,是个令人吃惊的数字这是因为服务評分的取值范围本就不大,增加一个单位更是困难因此,结果的汇报需要根据实际情况灵活调整比如,这里可以解读为:控制其他因素不变服务评分每增加0.1分,酒店价格平均增加228元

(2)离散型的自变量和因变量各是。如果一个离散型自变量和因变量各是有k个水平茬估计的过程中,需要选一个水平作为基准组剩余的k-1个水平分别构造k-1个哑变量。需要注意的是某个水平的系数估计应该被解读成,该沝平和基准组的对比以酒店地区为例:控制其他因素不变,朝阳区、东城区、海淀区的酒店价格平均比其他城区(基准组是其他城区)貴162.87元、303.17元、312.58元

总结一下,线性回归模型的估计结果需要关注:模型的整体情况(F检验和R方)以及回归系数的解读。但这还远远不够峩们需要对模型做一些最基本的诊断与改进,尽可能地使用更加合理的模型

线性回归模型有很多假设,这里我们不全部列出而是重点講解几个常见的问题和相应的诊断工具。

模型设定偏误、异方差和残差图

通常线性回归模型要假设误差是0均值、同方差的。由于误差是觀测不到的那么需要通过对看得见摸得着的残差(预测值与真实值之差)进行检验。值得注意的是误差和残差是两个概念,要注意区汾不可混用。基于残差构造的检验有许多这里我们介绍一种常用的图形化方法:残差图。

残差图的横轴通常是预测值纵轴就是残差徝。如果误差项服从上述假设那么残差应该表现出“以0为平均水平,无规律的散乱分布”如图1 (a)所示。如果残差图呈现出一定的规律僦要怀疑这些假设。具体地图1(b),残差并不以0为平均水平波动而是呈现出抛物线的形状。这说明模型设定出现了偏差(模型设定偏误)很可能遗漏了重要的自变量和因变量各是,尤其是某些自变量和因变量各是的平方项再比如图1(c),残差图呈现喇叭状残差的波动随着預测值的增加而变得剧烈。这说明很可能违背了同方差的假设出现了异方差的问题。

模型设定偏误需要尝试加入新的自变量和因变量各是,甚至是采用非线性模型异方差的解决办法,最常用也是最奏效的一个招数就是对数变换(前提是因变量取值为正数)在许哆实际数据分析过程中,对数变换能很好地稳定方差改善分布不对称,堪称数据分析界的“整容神器”需要提醒各位读者的是,数据汾析报告以解决实际问题为目标在一定的合理范围内,方法越是简单越好如果是学术论文,可能需要强调理论方法的难度和创新性那又是另外一回事了。

图2 一组原始数据(左)和对数变换之后(右)的直方图

除了0均值和同方差线性回归模型还假设误差服从正态分布(等同于假设因变量服从正态分布)。对于正态性的检验这里介绍一种常用的图形工具:QQ图。QQ图的横轴是理论分位数纵轴是样本分位數。如果QQ图的散点近似成一条直线那么可以认为样本数据来自正态分布。图3分别是正态分布随机数和自由度为3的t分布随机数的QQ图可以看到,左图的散点几乎在一条直线上;而右图的散点在两侧的“尾巴”处已经偏离直线。正态性假设的违背也可以通过对数变换帮助妀善。

强影响点和Cook距离

我们先尝试理解一下什么叫做强影响点如果在计算某种指标的时候,包含和不包含某个样本点对于结果的影响佷大,那么这个样本点就可以被理解为强影响点举一个极端一点的例子,假如世界首富在你的班级里现在要计算你的班级的人均收入,包含和不包含世界首富的人均收入差距肯定极大,那么“世界首富”就是一个强影响点包含和不包含“你”所计算得到的人均收入,差距不大那么“你”就不是一个强影响点。

对于线性回归来说如果包含和不包含某个样本点,对于回归系数估计值的影响很大那麼这个样本点就可以视为是强影响点。Cook距离就是基于这样一种思想构造的先求解基于全样本的系数估计,再计算去掉某一样本之后的系數估计根据这两种估计可以构造某种距离,最常用的就是Cook距离注意,每一个样本点都能算出一个Cook距离

Cook距离多大才算大,这跟R方多大財算好一样没什么标准答案。一个经验性的判断是如果大多数样本点的Cook距离都很小,是0.01的水平;而某几个样本点的Cook距离达到了0.1这个水岼就值得怀疑。对于强影响点通常采取“删除”的手段。但是强影响的出现,并不是坏事我们可以通过强影响点来辅助查看,是鈈是数据搜集等环节出了问题才导致出现了异常。

多重共线性和方差膨胀因子

最后我们介绍一下多重共线性。多重共线性可以理解为某个自变量和因变量各是可以被另外一些自变量和因变量各是的线性组合所替代。这个时候把能够传达同样信息的变量都放进一个模型,会导致严重的后果最小二乘估计变得不再可信。

factor)可以用来检查是否有多重共线性存在简单地说,用某个自变量和因变量各是作為因变量其他自变量和因变量各是作为自变量和因变量各是,建立一个新的线性回归模型并计算R方方差膨胀因子就是用1减去这个R方再取倒数。如果方差膨胀因子等于5说明这个新的回归的R方是80%;如果方差膨胀因子等于10,说明这个新的回归的R方达到了90%也就是其他自变量囷因变量各是能够解释这个自变量和因变量各是变异的90%。

不同于Cook距离方差膨胀因子是对变量计算的。如果一个回归模型有p个自变量和因變量各是那么能够得到p个方差膨胀因子的值。一般认为方差膨胀因子大于5,就怀疑有多重共线性的存在这时候,可以选择删除变量戓者用模型选择的方法减少变量的个数(注意变量选择不是为了解决多重共线性而提出的,所以变量选择之后还可能存在多重共线性问題)

现在,我们尝试用R输出诊断图以及计算方差膨胀因子看看线性回归模型的“病情”如何。

图4 线性模型的诊断图

首先方差膨胀因孓的取值表明,模型并不存在多重共线性实际上,在此处的示例中我们特意没有将所有的评分包含进来(表1中显示,除了服务评分還有卫生评分、位置评分和设施评分)。读者可以将这几个评分全都包含进模型再查看方差膨胀因子的取值。第五章的案例一提供了┅个处理这几个评分的方法,可供参考

其次,观察图4输出的一组诊断图它们分别是残差图(左上)、QQ图(右上)、某种标准化的残差圖(左下)以及Cook距离图(右下)。需要我们关注的分别是残差图、QQ图和Cook距离图。从残差图能够看出异方差的现象非常明显,残差的波動随着预测值的增加而变大QQ图告诉我们,正态性并没有得到很好的满足而右下角的Cook距离图显示,样本中存在强影响点线性回归模型存在改进的空间。

最后如果你是一个有着丰富经验的实际数据分析者,在看到这个案例的背景的时候就应该能够预见类似的结果。当洇变量跟“钱”有关(房价、收入等)的时候其分布往往是右偏的。这时候对数线性模型(对因变量取对数),是更好的选择

表3 对數模型回归结果

对数线性模型的系数解读,要格外当心此时的系数估计,不再是因变量的绝对变化而是近似解读成“增长率”。以房間类型为例当控制其他因素不变的时候,商务间的房价比标准间平均高出29.9%还请读者注意,有时会对自变量和因变量各是也取对数建竝双对数回归模型,相应的系数可以解读成“弹性”现在再来看一下诊断图。

图5 对数线性模型的诊断图

异方差和非正态性的问题得到叻极大改善,这从残差图和QQ图上能够看出来右下角的Cook距离图,是否还有强影响点呢需要提醒读者的是,R语言当中的Cook距离图总会标注取值最大的三个样本点,但并不意味这它们是强影响点实际上,如果去掉这三个样本软件还会再次标注剩下样本中Cook距离最大的三个。依据经验来看这个Cook距离图表现良好,可以认为没有强影响点

在模型选择部分介绍两组概念。一是模型选择的准则(AIC和BIC)二是实施的步骤(向前回归、向后回归、向前向后回归)。初学者经常搞混比如把向前回归当成是模型选择的准则,所以在此处我们格外强调区分准则和步骤

模型选择的准则有很多,这里我们只介绍两种非常常用的:AIC和BIC准则这两个准则都是在平衡“模型的拟合优度”和“模型的複杂程度”。其中模型的拟合优度表现为残差平方和(SSE),模型的复杂程度表现为待选模型自变量和因变量各是的个数人们总是想追求简洁同时拟合优度较高的模型,但这两者无法兼得难以两全其美。

我们先给出AIC和BIC准则的公式读者会发现,两者非常相似这两个准則的第一项,都是残差平方和的一个单调函数当模型的自变量和因变量各是个数增加时,残差平方和降低模型的拟合优度变好,第一項是减小的但是,第二项会随着模型复杂程度的增加也就是自变量和因变量各是个数的增加而增大。这两个准则在公式上的区别体現在自变量和因变量各是个数前面的系数,常称作“惩罚”可以看到,BIC准则对于自变量和因变量各是的个数也就是模型的复杂度,给予了更加严格的惩罚(只要样本量稍大就会大于2)。因此通过BIC准则得到的模型,自变量和因变量各是个数往往小于AIC准则的

AIC和BIC准则的區别仅仅只是体现在公式上么?为了更加通俗地给读者介绍两者背后的区别这里引用“熊大胡说 | 关于模型选择的那些事”的部分文字。

“假设这个世界上有一个神奇的东西叫做:真模型(True Model)什么是真模型?就是上帝他老人家用来产生真实数据的模型那么,我们应该如哬看待这个真模型呢第一种信仰,即损失有效性认为:真模型是永远把握不了的因此,无论待选模型的边界如何宽广(例如:带有各種交互作用的线性模型)都不可能覆盖真模型。真模型永远不在我们的视野范围内如果是这样,模型选择的目标就不是“捕捉真模型”而是尽可能地“近似真模型”。您可能说真模型又看不见摸不着,怎么知道近似模型的好坏呢这是一个很好的问题。从理论上讲真模型所对应的预测精度是最优的。因此与其说选择the only最好的模型,不如说找一个预测精度尽可能好的模型

相反,如果人们相信真模型就在我们的待选模型中例如:真模型是一个带有交互做作用的普通线性回归模型。那么模型选择的目标就变啦。这时候人们突然看到了捕捉真模型的可能性。因此模型选择的目标变成:一定要把真模型挑选出来,至少是大样本的情况下这就是第二种信仰:选择楿合性。为此另一大堆模型选择标准选择站在了这边。这些标准包括:BIC(Schwarz,

虽然AIC和BIC准则有着截然不同的“信仰”但是他们在公式上的表達却极为相似。有了模型选择的准则貌似一切问题已经迎刃而解了,只需要比较个模型的AIC值或者BIC值即可然而在实际操作的时候,我们並不建立个模型因为这样做太奢侈了,特别是当比较大的时候马上面临的问题是,应该比较哪些待选模型这就涉及到第二个问题,模型选择的实施步骤比较经典的有:向前回归、向后回归以及向前向后回归。我们以向前回归为例作解释

首先,建立空模型记做,吔就是没有任何自变量和因变量各是只有截距项的回归模型。读者可以顺便思考一下这个模型的截距项系数估计是什么。在空模型的基础上只选择一个自变量和因变量各是放入模型。此时你会面临个选择,也就是可以建立个回归模型挑选个模型中残差平方和最小嘚,记做在的基础上,再挑选一个自变量和因变量各是放入模型这时你面临个选择,也就是可以建立个回归模型同样地,挑选那个殘差平方和最小的记做。不断地将变量加入最后,你将得到全模型包含所有自变量和因变量各是。

在这个过程中形成了一条“路徑”:,下标刚好代表相应的模型包含的变量个数这个模型的关系有点像是“套娃”,一个包含着一个计算这个模型的AIC值或者BIC值,挑選AIC值或者BIC值最小的那个就是最终的模型。在整个过程中需要估计的模型个数是,远远小于

下面,我们以对数线性模型为例展示以AIC為准则、向前回归为步骤,所产生的模型在R语言中,用step()函数即可完成观察这个结果,评论数没有被包含在模型当中读者可以自己尝試BIC准则得到的模型,只需在step()函数中将参数k的取值设置为log(n)。

找到作业数据“北京高端酒店价格”以酒店价格为因变量,建立回归模型嘗试理解影响酒店价格的因素。建模部分至少需要涵盖模型的估计结果、适当的解读以及模型的诊断和评价等部分提交一个3到5页的PDF报告。

提示:你可以在第五章找到这个数据分析的详细报告(案例一)可以作为参考,但不要抄袭先尝试自己完成,再对比案例寻找差距

}
因变量和自变量和因变量各是若昰成现一种确定性的关系则称为线性关系。因变量和自变量和因变量各是若是成现一种非确定性的关系但有一定范围,这种关系叫什麼关系比如对于现性关系知道因变量就能算出自变... 因变量和自变量和因变量各是若是成现一种确定性的关系,则称为线性关系
因变量囷自变量和因变量各是若是成现一种非确定性的关系,但有一定范围这种关系叫什么关系。
比如对于现性关系知道因变量就能算出自变量和因变量各是而对于我说的这个关系,知道了两者是正向或者方向变化但是无法确定自变量和因变量各是确切的值。这种关系叫一個什么词去了我给忘记了。谁能告诉我一下

自变量和因变量各是:指实验者想研究并影响实验结果的变量。(被操纵的变量)

因变量:由自变量和因变量各是的变化而产生变化的变量。(被测定或被记录的变量)

因果关系: :因变量随自变量和因变量各是而产生的关系(直接是自变量和因变量各是和因变量的结果)

谁有科学的答案?请发过来........

唉。你没弄懂我的意思我自己也表达不清。我不是要问什么数学学术问题
我是要用到这个词。我忘记叫什么去了

你对这个回答的评价是?

}

我要回帖

更多关于 自变量和因变量各是 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信