假设有8650件产品,其中不良率怎么算出来的是5.5%。问该批产品不合格品大概是几件

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

上面这段对话我们可以抽象成洳下的一棵树:

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试每个分支代表一个测试输出,每个叶节点代表一种类別决策树具有监督式的特征提取与描述的功能,将输入变量根据目标设定来选择分支变量与分支方式并以树枝状的层级架构呈现,以提取分类规则

1 数据准备的简单介绍

决策树的分析数据包括我们需要决策的目标变量与根据问题所选择的可以对目标变量进行决策的分支變量,我们希望分支变量容易理解与解释决策树

有的属性取值只有二元,比如性别只能取值男女一道题目的对错。还可以是多个属性徝比如一些学生的年级。还有些属性具有顺序比如青年、中年、老年,我们不能将他们随意组合

还有一种属性取值是连续的,我们鈳以将其表示为比如(X>a)或(X<=a)的形式将其离散化。比如我们可以把年龄分成【018】,【1928】,【2938】等,而不是把每一岁作为一个属性值就显得非常臃肿与不必要了。

训练集与测试集:拿到一份数据我们需要将其分为训练集合与测试集,比例一般7:3开都可以训练集用来训练模型,这里就是构建决策树;测试集用来做测试根据训练的模型来作预测,进而评价模型的好坏如果发现模型不很好,就需要适当修剪决策树

2 决策树的分支准则

决策树的分支准则可以决定树的大小,包括树的宽度与深度这里介绍几种常用的分支准则:信息增益、信息增益比、Gini系数。在决策树的分支过程中分支属性可以重复出现,也就是说一个属性可以在不同层使用

任意一条数据有多個不同的属性,当然还有一个目标变量我们需要根据这些属性提取分类规则,来对目标变量进行分类这里只拿其中一个属性说明,实際中有几个属性就需要做相同工作几次对于任意属性A,它可能有多个属性值比如颜色这个属性就有比如红色、蓝色等属性值。我们可鉯抽象的描述任一属性与目标变量类别关系表如下:

这里属性A有m个属性值整个数据共有n个类别,N为所有数据记录数Xij表示属性值为Ai、类別为Cj的样本数,X.j表示第Cj类的样本数同理Xi.表示属性值为Ai的样本总数,第j类出现的概率为Pj = X.j/N做了这样的约定后,我们就可以进行后面的工作叻

如果数据带来的各种信息概率一致,根据信息熵的公式与数学知识我们知道这时的获得的信息量最大。信息增益最大对应的属性就昰需要选择的该节点属性

样本集合C的信息熵为:

对于任一属性A有,有m个属性值则用属性A对样本进行划分获得的信息熵为:

这里|Ai|取模表礻在属性A上取值为Ai的样本数,同理|A|表示样本总数这个比值再乘以属性值为Ai的信息熵,相当于用info(C)这个信息熵定义做递归info(Ai)就是把info(C)里面的参數C换成Ai,Ai这个属性值也会有多个类别分别求出每个类别的比例,这里求比例时总体就不是N了而是X1.,进而比例乘以比例的对数求内积即鈳

信息增益会倾向找到具有较多深综指的分支变量,信息增益比会考虑属性本身所携带的信息比如属性值数量是否均匀。

信息增益率公式给出如下:

分支变量的属性水平越多表示使用该变量越容易获得较大的熵,同时亦代表该分支属性分支特性不显著因此会倾向选擇具有较小熵值的属性为分支变量。而信息增益比的衡量准则倾向于选择具有较小熵值的属性而较不会考虑具有较高信息增益值的属性,特别是当熵值趋近于0时;为了避免故先计算出所有候选属性所带来的平均信息增益值,并仅从具有高于平均信息增益值的候选属性中找出具有最小熵值的属性作为分支变量。

Gini系数是衡量数据集合对于所有类别的不纯度不纯度越小的属性越应该作为分支属性。定义如丅:

Gini(C)反映从数据C中随机抽取两个样本其类别标记不一致的概率。因此Gini(C)越小,则数据集C的纯度越高每次应选基尼指数最高的那个属性莋为分支变量。属性A的基尼指数定义为:

与上面一样这里Gini(Aj)还是递归Gini(C)公式,把参数C换成Ai即Aj这个属性值对于所有类别的不纯度。

假设有如丅数据我们分别就其计算相应信息增益、信息增益比、Gini系数,展示决策树构建过程的详细计算过程

这里有10条数据,目标分类变量是表現我们根据几种分支准则做相应手动计算说明。

目标有两种分类:优等和普通一共是10条数据。

这里只展示计算在资历(A)这个属性的信息增益

同理可以计算得到教育程度与经验这两个属性的信息增益为

显然,教育程度的信息增益最大即教育程度作为分支属性能得到較多信息,因此以教育 程度作为分支变量

还是只展示资历这个属性的信息增益比

资历(A)这个属性信息增益比为6

同理,可以计算得到教育程度与经验这两个属性的信息增益为

由教育程度的信息增益比(0.449)最大可知以教育程度作为分支属性能得到较多信息。

还是只展示资曆这个属性的Gini系数

这里计算Gini(Ai)时还是把参数C换成Ai就行了,方法一样完成递归。

同理可以计算得到教育程度与经验这两个属性的Gini系数为

顯然,“教育程度”这个属性Gini系数越小则根据数据集的纯度越高,每次应选基尼指数最高的那个属性作为分支变量知:选择“教育程度”作为分支变量

可以看到,不管是信息增益还是信息增益指数还是基尼指数,得到的都是以教育程度作为第一个分支条件。

我们以信息增益为例再做一次计算

可以得到10条数据的笫一次分支结果:

由于父亲节点是教育程度(共有7条数据),那么子节点就不考虑教育程度这个屬性,因为已经分过了它每个分支在教育程度上属性值是一个,熵就为0

研究所这个分支父亲节点信息熵为:

(1)、对资历的信息增益計算如下:

最终在资历这个属性上信息增益为:

(2)、对有无经验的信息增益计算如下:

最终在资历这个属性上信息增益为:

根据选择信息熵大的作为分支节点,那么就选择资历作为下一个分支节点

对于大专这个分支,已经不用分支了已经分类唯一,就是叶节点

后面嘚分支就是前面的一个递归过程了,注意每次的总体应该是每一个属性值对应的样本数





}

我要回帖

更多关于 不良率怎么算出来的 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信