什么情况下,最小最小最大损失准则则等价于最小误判概率准则

chapter3+4_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
chapter3+4
|0|0|暂无简介
总评分4.5|
浏览量4690
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢距离判别是通过定义样本指标X的观测值x
时间: 14:32:43
&&&& &&&& &&&& &&&&&&&&EquationChapter1Section1注意电子文档使用范围&&&&&&&&《多元统计分析》&&&&MultivariateStatisticalAnalysis&&&&&&&&主讲:统计学院&&&&&&&&许启发()&&&&&&&&统计学院应用统计学教研室SchoolofStatistics2004年9月&&&&&&&&&&&&第三章&&&&&&&&判别分析判别分析&&&&&&&&【教学目的】1.让学生了解判别分析的背景、基本思想;2.掌握判别分析的基本原理与方法;3.掌握判别分析的操作步骤和基本过程;4.学会应用聚类分析解决实际问题。【教学重点】1.注意判别分析与聚类分析的关系(联系与区别);2.阐述各种判别分析方法。&&&&&&&&§1&&&&一、什么是判别分析什么是判别分析&&&&&&&&概述&&&&&&&&1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标X=(X1,X2,L,Xp)′来表征的,即不同类型的X的观测值在某种意义上有一定的差异。当得到一个新样本观测值(或个体)的关于指标X的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。也就是说,判别分析(discriminant判别分析(判别分析analysis)是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。)判别分析的应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。2.基本思想及意义用统计的语言来描述判别分析,就是已知有g个总体G1,G2,L,Gg(每个总体Gi可认为是属于Gi的指标X=(X1,X2,L,Xp)′取值的全体),它们的分布函数F1(x),F2(x),L,Fg(x)均为p维函数,对于任一给定的新样本观测值关于指标X的观测值x=(x1,x2,L,xp)′,我们要判断该样本观测值应属于这g个总体中的哪一个。在实际应用中,通常由取自各总体的关于指标X的样本为该总体的代表,该样本称为训练样本训练样本。判别训练样本分析即提取训练样本中各总体的信息以构造一定的准则来决定新样本观测值的归属问题。训练样本往往是历史上对某现象长期观测或者是用昂贵的试验手段得到的,因此对当前的新样本观测值,我们自然希望将其指标值中的信息同各总体训练样本中的信息作比较,使可在一定程度上判定新样本观测值的所属类型。概括起来,下述几个方面体现了判别分析的重要意义。第一,为未来的决策和行动提供参考。例如,以前对一些公司在破产前两年观测到某些重要的金融指标值。现在,要根据另一个同类型公司的这些指标的观测值,预测该公司两年后是否将濒临破产的危险,这便是一种判别,其结论可以帮助该公司决策人员及早采取措施,防止将来可能破产的结局。第二,避免破产的破坏。例如,一只灯泡的寿命只有将它用坏时才能得知;一种材料的强度只有将它压坏时才能获得。一般地,我们希望根据一些非破坏性的测量指标,便可将产品分出质量等级,这也要用&&&&第1页&&&&&&&&&&&&到判别分析。第三,减少获得直接分类信息的昂贵代价。例如在医学诊断中,一些疾病可用代价昂贵的化验和手术得到确诊,但通常人们往往更希望通过便于观测(从而也可能导致误诊)的一些外部症状来诊断,以避免过大的开支和对患有不必要的损伤。第四,在直接分类信息不能获得的情况下可用判别分析。例如,要判断某未署名的文学作品是否出自某已故作家之手,很显然,我们不能直接去问他。这时可以用这位已故作家署名作品的写作特点(用一些变量描述)为训练样本,用判别分析方法在一定程度上判定该未署名作品是否由该作家所作。从以上例子也可以清楚地看到,如果不是利用直接明确的分类信息来判断某样本观测值的归属问题,难免会出现误判的情况。判别分析的任务是依据训练样本所提供的信息,建立在某种意义下最优(如误判概率最小,或误判损失最小等)的准则来判定一个新样本属于哪一个总体。根据判别准则的不同,我们主要介绍距离判别、Fisher判别和Bayes判别。&&&&&&&&二、判别分析的分类及准则&&&&1.分类(1)按照判别组数分:两组判别和多组判别;(2)按照所用的数学模型分:线性判别和非线性判别;(3)按照处理度量的方法分:逐步判别和序贯判别。2.准则主要有:马氏距离最小准则,Fisher准则,平均损失最小准则,最小平方准则,最大似然准则,最大概率准则。并可由此提出判别方法:距离判别法,Fisher判别法,Bayes判别法,逐步判别法。&&&&&&&&三、判别分析与聚类分析&&&&判别分析是用以判别个体所属群体的一种统计分析方法,产生于20世纪30年代。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知样品进行判别分类。聚类分析,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。判别分析与聚类分析经常结合使用:通过聚类分析首先确定出几个类型,对难以分类的样品再使用判别分析,确定其类别归属。&&&&&&&&第2页&&&&&&&&&&&&§2&&&&&&&&距离判别法&&&&&&&&距离判别是通过定义样本指标X的观测值x(p维)到各总体的距离,以其大小判定样本观测值属于哪个总体。常用的距离是Mahalanobis距离(简称马氏距离),其定义如下:设G是p维总体,均值向量为?,协方差矩阵为∑,定义p维样本x到总体G的马氏距离为&&&&d(x,G)?(x)′∑(x)?&&&&1/2&&&&&&&&一、基本思想&&&&首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值。判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类总体分类并无特殊的要求。&&&&&&&&二、两个总体的距离判别法两个总体的距离判别法距离&&&&设有两个总体(或称两类)G1、G2,其均值向量和协差阵分别为?(1),?(2)和∑(1),∑(2),从第一个总体中抽取n1个样品,从第二个总体中抽取n2个样品,每个样品测量p个指标。G1总体G2总体变量样品&&&&X1(1)&&&&(1)X2&&&&&&&&x1&&&&(1)X11&&&&&&&&x2&&&&(1)X12&&&&&&&&LLL&&&&&&&&xp&&&&&&&&变量样品&&&&X1(2)&&&&(X22)&&&&&&&&x1&&&&(X112)(2)X21&&&&&&&&x2&&&&(X122)(2)X22&&&&&&&&LLL&&&&&&&&xp&&&&2)X1(p(X22)p&&&&&&&&X1(1)p&&&&(1)X2p&&&&&&&&(1)X21&&&&&&&&(1)X22&&&&&&&&M&&&&&&&&M&&&&&&&&M&&&&&&&&MLL&&&&&&&&M&&&&&&&&M&&&&&&&&M&&&&&&&&MLL&&&&(Xn12)p(2)xp&&&&&&&&X&&&&&&&&(1)n1&&&&&&&&X&&&&&&&&(1)n11&&&&&&&&X&&&&&&&&(1)n12&&&&&&&&X&&&&&&&&(1)n1p&&&&&&&&X&&&&&&&&(2)n2&&&&&&&&X&&&&&&&&(2)n11&&&&&&&&X&&&&&&&&(2)n12&&&&&&&&均值&&&&&&&&x1(1)&&&&&&&&x2(1)&&&&&&&&(1)xp&&&&&&&&均值&&&&&&&&x1(2)&&&&&&&&x2(2)&&&&&&&&任取一样品(待判)X,实测指标值为x=(x1,x2,L,xp)′,问X应归并为哪一类?1.计算X到总体G1和G2的距离,分别记为:D(X,G1)和D(X,G2);2.判别&&&&?D(X,G1)D(X,G2)则X∈G1D(X,G1)D(X,G2)则X∈G2?D(X,G)=D(X,G)则待判12?&&&&&&&&3.距离的定义(马氏距离)&&&&?1D2(X,Gi)=(X(i))′(∑(i))(X(i))i=1,2&&&&&&&&(1)当∑(1)=∑(2)=∑时此时,考察样品X到两总体的马氏距离的平方差,由于&&&&D2(X,G2)?D2(X,G1)&&&&=(X(2))′∑?1(X(2))?(X(1))′∑?1(X(1))&&&&&&&&=X′∑?1X?2X′∑?1?(2)+?(2)′∑?1?(2)?X′∑?1X+2X′∑?1?(1)(1)′∑?1?(1)=2X′∑?1(?(1)(2))+?(2)′∑?1?(2)(1)′∑?1?(1)+?(1)′∑?1?(2)(2)′∑?1?(1)=2X′∑?1(?(1)(2))?(?(1)+?(2))′∑?1(?(1)(2))&&&&&&&&′=2?X?1(?(1)+?(2))?∑?1(?(1)(2))2&&&&=2[X]′∑?1(?(1)(2))&&&&&&&&第3页&&&&&&&&&&&&其中,?=&&&&&&&&1(?1+?2)。令W(X)=(X)′∑?1(?12),则判别准则可以简化为:2?W(X)0则X∈G1W(X)0则X∈G2?W(X)=0则待判?&&&&&&&&更进一步,令α′=(?12)′∑?1,则W(X)可表示为:&&&&?X11?X22?W(X)=(X)′α=α′(X)=(α1,α2,L,αp)?=α1(X11)+L+αp(Xpp)MXpp上式表明,当?(1),?(2)和∑均已知时,W(X)是X1,X2,L,Xp的线性函数,称之为线性判别,α称之为判别&&&&&&&&系数。线性判别函数因其使用方便而得到广泛的应用。但在实际问题中,?(1),?(2)和∑通常是未知的,我们所具有的资料只是来自两个总体的训练样本。这时,可以通过训练样本对?(1),?(2)及∑作估计。设&&&&(X1(i),L,Xnii)为来自Gi的样本(每个Xk(i),k=1,2,L,ni均为p维列向量)i=1,2,则,&&&&&&&&(i)=X(i)=&&&&&&&&1?(n?1)V1+(n2?1)V2=∑=1(S1+S2)n1+n2?2n1+n2?2&&&&&&&&1ni&&&&&&&&∑X&&&&k=1&&&&&&&&ni&&&&&&&&(i)k&&&&&&&&i=1,2&&&&&&&&式中,Si=∑(Xk(i)?X(i))(Xk(i)?X(i))′,Vi=&&&&k=1&&&&&&&&ni&&&&&&&&1Si为样本的协差阵。?(i)和∑为无偏估计。这时,判别函ni?1&&&&&&&&数W(X)的估计为&&&&′?W(X)=X∑?1(?12)?其中,?=&&&&12&&&&&&&&(&&&&&&&&)&&&&&&&&(?12)。则&&&&&&&&W(X)0则X∈G1W(X)0则X∈G2?W(X)=0则待判?NOTE:对于当p=1维时,若两个总体的分布分别为N(?1,σ2)和N(?2,σ2),属于多维的一种特例。教&&&&&&&&材P105给出该特例形式,并且给出了错判的概率错判的概率。错判的概率(1)(2)(2)当∑≠∑时正如本节开始所述,可由D2(X,G1)和D2(X,G2)的大小判定X属于哪个总体,或令&&&&?W(X)=D2(X,G2)?D2(X,G1)=(X2)′∑?1(X2)?(X1)′∑11(X1)2&&&&&&&&作为判别函数,这时判别函数W(X)是X的二次函数。实际应用中,?(1),?(2)和∑(1),∑(2)未知,若可用总体的训练样本对它们作估计,从而得到判别函数W(X)的估计为&&&&?W(X)=(X2)′V2?1(X2)?(X1)′V1?1(X1)&&&&&&&&其中,?(1),?(2)与V1,V2表达同上。&&&&&&&&三、多个总体的距离判别①&&&&设有k个p维总体G1,G2,L,Gk,均值向量分别为?(1),?(2),L,?(k),协方差矩阵分别为∑(1),∑(2),L,∑(k),从每个总体Gi中抽取ni个样品,每个样品测量p个指标(i=1,2,L,k)。类似两总体的距离差别,计算新&&&&①&&&&&&&&将两个总体的情况推广到多个总体。第4页&&&&&&&&&&&&样本观测值X到各总体的距离,比较这k个距离,判定X属于其距离最短的总体(若最短距离不惟一,则可将X归于具有最短距离总体中的任一个,因此,不妨设最短距离惟一)。下面仍就各协方差矩阵相等和不等的情况予以详细讨论。1.当∑(1)=L=∑(k)=∑时此时,由前面的马氏距离定义知:D2(X,Gi)=(X(i))′(∑(i))&&&&Wij(X)=&&&&?1&&&&&&&&(X)&&&&(i)&&&&&&&&i=1,2,L,k,则判别函数为:&&&&&&&&12′?D(X,Gj)?D2(X,Gi)?=?X?1(?(i)+?(j))?∑?1(?(i)(j))?22?则X到Gi的距离最小等价于对所有的j≠i,有Wij(X)0,从而判别准则可以写为?当Wij(X)0,对一切j≠i则X∈Gi则待判?若有某一个Wij(X)=0?&&&&&&&&当?(1),?(2),L,?(k)和∑通常是未知的,可以利用各总体的训练样本对其进行估计,得到估计的判别函&&&&(数。设X1(i),L,Xnii)为来自Gi的样本(每个Xt(i),t=1,2,L,ni均为p维列向量)i=1,2,L,k,则,&&&&&&&&(i)=X(i)=?∑=&&&&&&&&1ni&&&&&&&&∑X&&&&t=1&&&&&&&&ni&&&&&&&&(i)t&&&&&&&&i=1,2,L,k&&&&&&&&k1∑Sin1+n2+L+nk?ki=1ni&&&&&&&&式中,Si=∑(Xt(i)?X(i))(Xt(i)?X(i))′为Gi的样本离差阵。?(i)和∑为无偏估计。&&&&t=1&&&&&&&&2.当∑(i=1,2,L,q)不全相等时这时只需直接计算&&&&(i)&&&&&&&&D2(X,Gi)=(Xi)′∑i?1(Xi),(i=1,2,L,q)&&&&&&&&若&&&&&&&&1≤t≤k&&&&&&&&min{D2(X,Gt)}=D2(X,Gi),则判X∈Gi。&&&&&&&&?同样地,若?(1),?(2),L,?(k)和∑是未知的,则可以用它们的估计量?(i)和Si计算得到X到各总体的距离,从而进行判断。或者,可以构造判别函数&&&&?1?1Wij(X)=(X(j))′(V(j))(X(j))?(X(i))′(V(i))(X(i))&&&&&&&&判别准则同上。&&&&&&&&四、判别准则的评价&&&&当一个判别准则提出以后,很自然的问题就是它们的优良性如何。通常,一个判别准则的优劣,用它的误判概率来衡量。以两总体为例,一个判别准则的误判概率即X属于G1而判归G2或者相反的概率。但只有当总体的分布完全已知时,才有可能精确计算误判概率。在实际应用中,这种情况是很少见的,因为在大多数情况下,我们可利用的资料只是来自各总体的训练样本,而总体的分布是未知的。下面我们以两个总体为例,介绍两种以训练样本为基础的评价判别准则优劣的方法。它们也很容易推广到多个总体的情况。1.貌似误判率方法当利用各总体的训练样本构造出判别准则后,评价此准则优劣的一个可行的办法是通过对训练样本中的各样本逐个回判(即将各样本观测值代入判别准则中进行再判别),利用回判的误判率来衡量判别准则的效果,具体方法如下:((设G1和G2为两个总体,X1(i),X2i),L,Xnii)(i=1,2)为来自G1和G2的容量分别为n1和n2的训练样本,以此按一定方法(如距离判别法)构造一个判别准则(或判别函数),以全体训练样本作为n1+n2个新样本,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。为明了起见,将回判结果连同其实际分类列成如下的四格表3.1。&&&&&&&&第5页&&&&&&&&&&&&表3.1两总体回判结果回判情况实际归类&&&&G1G2G1n11n21G2n12n22&&&&&&&&合计&&&&n1n2&&&&&&&&其中,n11代表属于G1的样品被正确判归G1的个数;n12代表属于G1的样品被正确判归G2的个数;n21代表属于G2的样品被正确判归G1的个数;n22代表属于G2的样品被正确判归G2的个数。?定义貌似误判率为回归中判错样品的比例,记为α,即&&&&?α=n12+n21n1+n2&&&&&&&&α在一定程度上反映了某判别准则的误判率且对任何误判准则都易于计算。但是,α是由建立判别函?数的数据反过来又用作评估准则优劣的数据而得到的,因此α作为真实误判率的估计是有偏的,往往要比真实的误判率来的小。但作为误判概率的一种近似,当训练样本容量较大时,还是具有一定的参考价值。&&&&&&&&2.刀切法刀切法也称为Lachenbruch删除法或交差确认法(Cross-Validation)基本思想。其基本思想基本思想是每次剔除训练样本中的一个样本,利用其余容量为n1+n2?1的训练样本建立判别准则(或判别函数),再用所建立的判别准则对删除的那个样本观测值作判断,对训练样本中的每个样本观测值重复上述步骤,以其误判的比例作为误判概率的估计。具体地说:(1)从总体G1的容量n1的训练样本开始,剔除其中的一个样本观测值,用剩余的容量为n1?1的训练样本和总体G2的容量为n2的训练样本建立判别函数;(2)用(1)中建立的判别函数对删除的那个样本观测值作判别;J(3)重复步骤(1)和(2),直到G1的训练样本中的n1个样本观测值依次被删除和判别,用n1(M)记误判的样本观测值个数;((4)对总体G2的训练样本重复步骤(1)(2)和(3),,并用n2J)记误判的样本观测值个数。则总的M误判比例为&&&&?aJ&&&&J(n1(M)+n2J)Mn1+n2&&&&&&&&可以证明它是实际误判概率的渐近无偏估计。刀切法比貌似误判率法要更合理些,但缺点是计算量较大。在SAS等统计软件中有专门的计算程序,因此借助计算机的威力,刀切法还是值得推荐的一种评价判别准则优良性的方法。最后需要指出的是,判别准则的误判率在一定的程度上还依赖于所考虑的各总体之间的分离程度。各总体之间相互离得越远,就越有可能建立有效的判别准则,否则,某些总体靠得很近,使用判别分析本身就意义不大,更不用说建立有效的判别准则了。另外,各总体的协方差矩阵是否相等,严格地说也需要进行统计检验。当各总体服从多元正态分布时,我们可以对各总体的均值向量是否相等进行统计检验以确定使用判别分析是否有意义。同时,也可对各总体的协方差阵是否相等进行检验以确定是采用线性判别函数还是二次判别函数(具体检验方法可参看文献[8]第五章)。但这些检验方法往往十分复杂,在实际应用中,我们可就协方差矩阵相等和不相等情况下,分别利用线性判别函数和二次判别函数作分析,通过貌似误判率方法或刀切法估计各情况下判别准则的优劣,以选择一个较优的判别准则。SAS软件包含了检验协方差阵相等的程序,因此借助统计软件,可以进行更深入的统计分析。&&&&&&&&五、应用举例&&&&例3.1P108。例3.2P111。&&&&&&&&第6页&&&&&&&&&&&&§3&&&&&&&&费歇(费歇(Fisher)判别法)判别法&&&&&&&&这种判别法是历史上最早提出的判别方法之一,也叫线性判别法,该方法对总体的分布无须作出具体的要求。&&&&&&&&一、判别原理(基本思想)判别原理(基本思想)&&&&设X(k)(nk×p)是来自第k类(组)的样本数据阵,=1,2,L,q,k其中的行表示样本点,列表示变量(值),&&&&x(k)=(x1(k),x2(k),L,xp(k))′。任给一个样本点x=(x1,x2,L,xp)′,要判断x应该属于哪个组别,需要找到x&&&&&&&&的线性判别函数y=α′x&&&&&&&&现在的问题是按照什么样的原则选择向量α′=(α1,α2,L,αp)呢?因为向量α表示p维空间中的一个方&&&&&&&&向,如果按照这个方向做一条直线(建立一个一维坐标系),那么y=α′x表示向量x在这条直线上投影坐标。同样,将各组样本均值投影到这条直线,得到各组样本均值在这条直线上的投影坐标α′x(1),α′x(2),L,α′x(q)。显然这些坐标值相距越大,越容易分辨x究竟属于哪个组。&&&&x2x2x3&&&&&&&&b&&&&a&&&&&&&&x1x1&&&&&&&&如图3.1所示,若判别函数选择α′x,由于三个组的重心在α的投影相距较远,比较容易判别待判样本点属于哪一个组。反之,若判别函数选择b′x,由于三个组的重心在b的投影相距较远,不容易判别待判样本点的归属。Fisher判别法就是要找到一个由p个变量组成的线性函数,使得各自组内点的函数值尽可能接近,而不同组之间点的函数值尽可能疏远。具体地,Fisher判别法就是要求α的选择能使α′x(1),α′x(2),L,α′x(q)之间的离差平方和&&&&q1qQB(α)=∑?α′x(k)?∑α′x(k)?=α′Bαqk=1k=1&&&&&&&&2&&&&&&&&尽量大,使得各组内离差平方和&&&&QW(α)=∑QW(k)=∑(Y(k)?Y(k))′(Y(k)?Y(k))=∑α′Q(k)α&&&&k=1k=1k=1qqq&&&&&&&&尽量小。其中Y(k)=α′X(k),Y(k)=α′X(k)&&&&?x1(k)?x1(k)X(k)=Lx(k)?1&&&&x2(k)Lxp(k)qx2(k)Lxp(k)?1q,B=(bij)p×p,bij=∑(xi(k)?xi)′(xj(k)?xj),xj=∑xj(k)LOL?qk=1k=1x2(k)Lxp(k)?&&&&&&&&第7页&&&&&&&&&&&&因此,可以构造函数Q(α)λ(α)=BQW(α)选择适当的α使得λ(α)达到最大值。根据极值的必要条件,令?λ(α)=0j=1,2,L,p?αj由λ(α)=&&&&QB(α)知QB(α)=λ(α)QW(α),于是QW(α)j=1,2,L,p&&&&&&&&?Q(α)?QB(α)?λ(α)=QW(α)+λ(α)W?αj?αj?αj&&&&&&&&当&&&&&&&&?λ(α)=0?αj&&&&&&&&j=1,2,L,p成立时,有&&&&&&&&?Q(α)?QB(α)=λ(α)W?αj?αj&&&&&&&&写成矩阵形式,上式变为&&&&?qq?Bα=λ(α)?∑Q(k)?α∑Q(k)?Bα=λ(α)α?(Q?1B?λ(α)I)α=0?k=1k=1?&&&&?1&&&&&&&&其中Q=∑Q(k)。&&&&k=1&&&&&&&&q&&&&&&&&上式告诉我们,向量α是Q?1B的特征根λ(α)对应的单位特征向量。由于Q?1B有p个特征根及单位特征向量,按主成分分析的思想,自然应取最大特征根λ1及相应的单位特征向量α,这样构成的判别函数①y=α′x可使λ(α)达到极大。由于λ(α)的大小可以衡量判别函数的判别效果,故称λ(α)为判别效率。&&&&&&&&二、两总体的Fisher判别&&&&1.基本原理从两个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个判别函数或判别式:y=c1x1+c2x2+L+cpxp,其中系数c1,c2,L,cp确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式以后,对于一个新样品,将它的p个指标代入判别式中求出y的值,然后与判别临界值(分界点)进行比较,就可以判别它应属于哪一个总体。2.判别函数的导出(1)找到判别式不妨设已经建立了判别式:y=c1x1+c2x2+L+cpxp,则可以得到变换后的两组的重心。第一组样品的重心:y(1)=∑ckxk(1)&&&&k=1pp&&&&&&&&第二组样品的重心:y(2)=∑ckxk(2)&&&&k=1&&&&&&&&组间变差:Q=Q(c1,c2,L,cp)=(y(1)?y(2))&&&&&&&&2&&&&&&&&①&&&&&&&&这里给出的是一维Fisher判别函数。在有些问题中,仅用一个线性判别函数不能很好地区分各个类(组)别,可以利用前若干个特征所对应的单位正交特征向量构造m(m≤p)个判别函数,并称为多维判别。第8页&&&&&&&&&&&&组内变差:F=F(c1,c2,L,cp)=∑(yi(1)?y(1))+∑(yi(2)?y(2))&&&&2i=1i=1&&&&&&&&n1&&&&&&&&n2&&&&&&&&2&&&&&&&&可以构造指标&&&&QF①c1,c2,L,cp的选取原则就是使得I极大化。I=&&&&&&&&?c1s11c2?=?s21?MLcs?pp1&&&&&&&&s12s22Lsp1&&&&&&&&LLOL&&&&n1&&&&&&&&s1ps2p?L?spp?&&&&&&&&?1&&&&&&&&?d1d2Mdp?&&&&n2i=1&&&&&&&&(1)(1)(2)(2)其中,dk=xk(1)?xk(2),skl=∑(xik?xk(1))(xil?xl(1))+∑(xik?xk(2))(xil?xl(2))。i=1&&&&&&&&(2)设置判别准则有了判别函数之后,要得到判别准则还要确定临界值(分界点)y0,在两总体先验概率相等的假设下,一般常取y0为y(1)与y(2)的加权平均值,即&&&&y0=n1y(1)+n2y(2)n1+n2&&&&&&&&判别准则:当y(1)y(2)时,若yy0,则判定X∈G1;若yy0,则判定X∈G2当y(1)y(2)时,若yy0,则判定X∈G2;若yy0,则判定X∈G1&&&&G2G1G1G2&&&&&&&&y(2)&&&&&&&&y0&&&&&&&&y(1)&&&&&&&&y(1)&&&&&&&&y0&&&&&&&&y(2)&&&&&&&&3.计算步骤其基本步骤归纳如下:STEP01:建立判别式;STEP02:计算临界值y0,设置判别准则;STEP03:检验判别效果不妨设两个总体服从正态分布且具有相同的协差阵。(1)(2)构造原假设和备择假设:H0:Exα=?1=?2=Exα,H1:?1≠?2构造检验统计量:&&&&F=&&&&&&&&(n1+n2?2)?p+12H成立T~F(p,n1+n2?p?1)(n1+n2?2)p&&&&0&&&&&&&&其中&&&&?n1n2?2T2=(n1+n2?2)?(X(1)?X(2))′S?1nn1+nn(X(1)?X(2))n1+n2?12S=(sij)&&&&((1)(1)(2)(2),sij=∑(xai?xi(1))(xaj?xj(1))+∑(xai?xi(2))(xaj?xj(2)),X(i)=(x1(i),L,xpi))′p×p&&&&n1n2a=1a=1&&&&&&&&得出结论:当H0被拒绝时,认为判别有效;否则,认为判别无效。3.应用举例&&&&①&&&&&&&&利用微积分中求极值的必要条件可求出使I达到最大的c1,c2,L,cp,详细过程见教材P117。第9页&&&&&&&&&&&&例3.1:教材P121。&&&&&&&&三、多总体的Fisher判别&&&&其讨论同前,注意和两总体判别之间的关系。&&&&&&&&第10页&&&&&&&&&&&&§4&&&&&&&&贝叶斯(贝叶斯(Bayes)判别法)&&&&&&&&统计学中现在有两个主要的学派:频率学派与贝叶斯学派,贝叶斯学派是在与频率学派的争论中逐步发展起来的。争论的问题主要有:未知参数是否可以看作随机变量?事件的概率是否一定要有频率解释?概率是否可以用经验来确定?&&&&&&&&一、贝叶斯统计概述贝叶斯统计概述&&&&为了说明二者的异同,简单介绍三种信息。&&&&&&&&1.总体信息&&&&即总体分布或总体所属分布族给我们的信息,譬如,“总体是正态分布”这一句话就给我们带来很多信息:它的密度函数是——条钟形曲线;它的—切阶矩都存在;有关正态变量的一些事件的概率可以计算;有正态分布可以导出卡方分布、t分布和F分布等重要分布;还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。总体信息是很重要的信息,为了获取此种信息往往耗资巨大。美国军界为了获得某种新的电子元器件的寿命分布,常常购买成千上万个此种元器件,做大量寿命实验、获得大量数据后才能确认其寿命分布是什么。我国为确认国产轴承寿命分布服从两参数威布尔分布前后也花了五年时间,处理几干个数据后才定下的。又如保险费的确定与人的寿命分布密切相关,在保险业中,人的寿命分布被称为寿命表,中国人的寿命表人不同于外国人的寿命表,男人的寿命表不同于女人的寿命表,北方人的寿命表不同&&&&于南方人的寿命表,当代人的寿命表与若干年前人的寿命表也是不同的,而要确定这些寿命表是一项耗资费时的工作,至今我国还缺乏此类寿命决。确定我国各类人群的寿命表是我国统计工作者的重要任务。&&&&&&&&2.样本信息&&&&即从总体抽取的样本给我们提供的信息。这是最“新鲜”的信息,并巳愈多愈好。人们希望通过对样本的加工和处理对总体的某些特征作比较为精确的统计推断,没有样本就没有统计学可言。基于上述两种信息进行的统计推断被称为经典统计学,它的基本观点是把数据(样本)看成是来自具有一定概率分布的总体,所研究的对象是这个总体,而不局限于数据本身。据现有资料看,这方面最早的工作是高斯(Gauss,)和勒让德(Legendre,)的误差分析、正态分布和最小二乘法。从十九世纪末期到二十世纪上半叶,经皮尔逊(Pearson,)、费歇尔(Fisher,)奈曼(Keyman)的等人杰出的工作创立了经典统汁学。如今统计学教材几乎全是叙述经典统汁学的理论与方法。二十世纪下半叶,经典统计学在工业、农业、医学、经济、管理、军事等领域里获得了广泛的应用。这些领域中又不断提出新的统计问题,这又促进了经典统计学的发展,随着经典统计学的持续发展与广泛应用、它本身的缺陷也逐渐暴露出来,主要集中在:小样本问题研究上、区间估计的解释上、似然原理的认识上。除上述两种信息外,在我们周围还存在第三种信息——先验信息,它也可用于统计推断。&&&&&&&&3.先验信息&&&&即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。先验信息在日常生活和工作中也经常可见,不少人在自觉地或不自觉地使用它。看下面二个例子。例1.英国统计学家Savage(1961)曾考察如下二个统计实验:A.一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶。对此做了十次试验.她都正确地说出了。B.一位音乐家声称,他能从一页乐谱辨别出是海顿(Haydn)还是莫扎持(Mozart)的作品。在这十次试验中,他都能正确辨别。&&&&第11页&&&&&&&&&&&&在这两个统计试验中,假如认为被实验者是在猜测,每次成功概率为0.5,那么十次都猜中的概率为2=0.0009766,这是—个很小的概率,是几乎不可能发生的,所以“每次成功概率为0.5”的假设应被拒绝。被实验者每次成功概率要比0.5大得多。这就不是猜测,而是他们的经验在帮了他们的忙。可见经验(先验信息的一种)在推断中不可忽视,应加以利用。例2“免检产品”是怎样决定的?某厂的产品每天都要抽检几件,获得不合格品率θ的估计。经过一段时间后就积累大量的资料,根据这些历史资料(先验信息的一种)对过去产品的不合格率可构造一个分布:&&&&?10&&&&&&&&iP(θ=)=πin&&&&&&&&i=0,1,2,L,n&&&&&&&&这个对先验信息进行加工获得的分布称为先验分布。这个先验分布是综合了该厂过去产品的质量情况。如果这个分布的概率绝大部分集中在θ=0附近,那该产品可认为足“信得过产品”。假如以后的多次抽检结果与历史资料提供的先验分布是一致的。使用单位就可以对它作出“免检产品”的决定,或者每月抽检一、二次就足够丁,这就省去了大量的人力与物力。可见历史资料在统计推断中应加以利用。基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为贝叶斯统计学,它与经典统计学的主要差别在于是否利用先验信息。在使用样本信息上也是有差异的。贝叶斯学派重视已出现的样本观察值,而对尚未发生的样本观察值不予考虑,贝叶斯学派很重视先验信息的收集、挖掘和加工,使它数量化,形成先验分市,参加到统计推断中来,以提高统计推断的质虽。忽视先验信息的利用,有时是一种浪费,有时还会导致不合理的结论。贝叶斯统计起源于英国学者贝叶斯(Bayes,)死后发表的一篇论文“论有关机遇问题的求解”。在此论文中他提出著名的贝叶斯公式和一种归纳推理方法。随后拉普拉斯等人用贝叶斯提出的方法导出些有意义的结果。之后虽有一些研究和应用,但由于其理论尚不完整,应用中又出现—些问题,致使贝叶斯方法长期未被普遍接受。真到二次大战后,瓦尔德提出统计决策函数论后又引起很多人对贝叶斯方法研究的兴趣。因为在这个理论中贝叶斯解被认为是一种最优决策函数。在Savage(1954)、Jeffreys(1961)、Good(1950)、Lindley(1961)、Box(1973)、Tiao(1973)、Berger(1985)等贝叶斯学者的努力下,对贝叶斯方法在观点、方法和理论上不断的完善。另外在这段时期贝叶斯统计在工业、经济、管理等领域内获得一批无可非议的成功应用。贝叶斯统计的研究论文和著作愈来愈多,国际会议也经常举行。如今贝叶斯统计已趋成熟,贝叶斯学派巳发展成为一个有影响的统计学派,开始打破了经典统汁学一统天下的局面。贝叶斯学派的最基本的观点是:任一个未知量θ都可看作一个随机变量,应用一个概率分布去描述对θ的未知状况。这个概率分布是在抽样前就有的关于θ的先验信息的概率陈述。这个概率分布被称为先验分布。有时还简称为先验(Prior)。因为任一未知量都有不确定性,而在表述不确定性程度时,概率与概率分心是最好的语言。例3学生估计一新教师的年龄。依据学生们的生活经历,在看了新教师的照片后立即会有反应:“新教师的年龄在20岁到40岁之间,极有可能在30岁左右。一位统计学家与学生们交谈,”明确这句话中“左右”可理解为±3岁,“极有可能”可理解为90%的把握。于是学生们对新教师年龄(未知量)的认识(先验信息)可综合为图所示的概率分布,这也是学生们对未知量(新教师年龄)的概率表述。&&&&&&&&90%&&&&&&&&5%202530&&&&&&&&5%3540&&&&θ&&&&&&&&这里有二个问题需要进—步讨论。第一,按图所示的概率分布我们可谈论未知量θ位于某个区间的概&&&&第12页&&&&&&&&&&&&率。譬如,θ位于37到43岁间的概率为0.90、即P(37≤θ≤43)=0.90可这个概率陈述在经典统计中是不允许的,因为经典统计认为θ是常量,它要么在37岁列43岁之间(概率为1),要么在这个区间之外(上述事件概率为0),不应有0.9的概率。然而,实际这种说法经常存在。第二,图中的概率0.90为是在大量重复试验个获得的,而是学生们根据自己的生活经历的积累对该事件发生可能性所给出的信念,这样给出的概率在贝叶斯统计中是允许的,并称为它为主观概率。它与古典概率和用频率确定的概率有相同的含义,只要它符合概率的三条公理即可。这—点频率学派是难以接受的,他们认为经典统计学是用大量重复试验的频率来确定概率、是“客观的”,因此符合科学的要求,而认为贝叶斯统计是“主观的”,因比(至多)只对个人作决策有用。这是当前对贝叶斯统计的主要批评。贝叶斯学派认为引入主观概率及由此确定的先验分布至少把概率与统计的研究与应用范围扩大到不能大量重复的随机现象中来。其次,主观概率的确定不是随意的,而是要求当事人对所考察的事件有较透彻的了解和丰富的经验,甚至是这一行的专家,在这个基础上确定的主观概率就能符合实际。把这样一些有用的先验信息引入统计推断中来只会有好处,当然误用主观概率与先验分布的可能性是存在的。最后,贝叶斯学派也经常揭露频率学派的“客观性”,总体分布的选择对答案所产生的影响远比先验分布选择所产生的影响重大的多,而前者恰好也经常是主观的。另外评价一个统计方法好坏的标准上的选择,主观性也是很大的,都朝着对自己有利的方向选择。Good(1973)说得直截了当:“主观主义者直述他的判断,而客观主义者以假设来掩盖其判断,并以此享受科学客观性的荣耀。”&&&&&&&&4.贝叶斯公式&&&&贝叶斯公式的事件形式在初等概率中都有叙述,这里用随机变量的密度函数叙述贝叶斯公式,从中介绍贝叶斯学派的一些具体想法。全概率公式定义1:把基本空间?分为n个事件B1,B2,L,Bn,假如:(1)P(Bi)0,i=1,2,L,n;(2)B1,B2,L,Bn之间互不相容;(3)UBi=?&&&&i=1n&&&&&&&&则称事件组B1,B2,L,Bn为基本空间?的一个分割。B2B3&&&&&&&&B1B5&&&&&&&&B4Ω&&&&&&&&定理1(全概率公式):设事件B1,B2,L,Bn基本空间?的一个分割,则对?中任一事件A,有&&&&P(A)=∑P(A|Bi)P(Bi)&&&&i=1n&&&&&&&&定理2(贝叶斯公式的事件形式):设事件B1,B2,L,Bn基本空间?的一个分割,且它们各自概率P(B1),L,P(Bn)皆已知且为正,又设A是?中一事件,(A)0,P且在诸Bi给定下事件A的条件概率P(A|Bi)可以通过试验手段获得,则在A给定下,事件Bk的条件概率为:&&&&P(Bk|A)=P(A|Bk)P(Bk)&&&&&&&&∑P(A|Bi)P(Bi)&&&&i=1&&&&&&&&n&&&&&&&&,k=1,2,L,n&&&&&&&&第13页&&&&&&&&&&&&贝叶斯公式的密度函数形式(1)依赖于参数θ的密度函数在经典统计中记为p(x;θ)或pθ(x),它表示在参数空间Θ中不同的θ对应不同的分布。可在贝叶斯统计中记为p(x|θ),它表示在随机变量θ给定某个值时,总体指标X的条件分布。(2)根据参数θ的先验信息确定先验分布π(θ)。这是贝叶斯学派在最近几十年里,重点研究的问题。(3)从贝叶斯观点看,样本x=(x1,x2,L,xn)的产生要分二步进行。第一步设想从先验分布π(θ)产生一个样本θ′,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字;第二步是从总体分布p(x|θ′)产生一个样本x=(x1,x2,L,xn),这个样本是具体的,人们能看得到,此样本x发生的概率是与如下联合密函数成正比&&&&p(x|θ′)=∏p(xi|θ′)&&&&i=1n&&&&&&&&这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为L(θ′)。频率学派和贝叶斯学派都承认似然函数,他们都认为:在有了样本观察值x=(x1,x2,L,xn)后,总体和样本中所含θ的信息都被包含布似然函数L(θ′)之中,可在使用似然函数作统计推断时,二派之间存在差异。(4)由于θ′是设想出来的,它仍然是未知的,它是按先验分布π(θ)而产生的,要把先验信息进行综合,不能只考虑θ′,而应对θ的一切可能加以考虑。故要用π(θ)参与进一步综合。这样一来,样本x和参数θ的联合分布h(x,θ)=p(x|θ)π(θ)把三种可用的信息都综合进去了。(5)我们的任务是要对未知数θ作出统计推断。在没有样本信息时,人们只能据先验分布对θ作出推断。在有样本观察值x=(x1,x2,L,xn)之后,我们应该依据h(x,θ)对θ作出推断。为此我们需要把h(x,θ)进行如下分解:h(x,θ)=π(θ|x)m(x)其中m(x)是x的边缘密度函数&&&&m(x)=∫h(x,θ)dθ=∫p(x|θ)π(θ)&&&&θθ&&&&&&&&它与θ无关,或者说,m(x)中不含θ的任何信息。因此能用来对θ作出推断的仅是条件分布π(θ|x)。它的计算公式是&&&&π(θ|x)=&&&&h(x,θ)=m(x)p(x|θ)π(θ)&&&&&&&&∫p(x|θ)π(θ)dθθ&&&&&&&&(1)&&&&&&&&这就是贝叶斯公式的密度函数形式。这个在样木x给定下,θ的条件分布被称为θ的后验分布。它是集中了总体、样本和先验等三种信息中有关θ的一切信息,而又是排除一切与θ无关的信息之后所得到的结果。故基于后验分布π(θ|x)对θ进行统计推断是更为有效,也是最合理的。(6)在θ是离散随机变量时,先验分布可用先验分布列π(θi)i=1,2,L表示。这时后验分布也是离散形式。&&&&&&&&π(θi|x)=&&&&&&&&p(x|θi)π(θi)&&&&&&&&∑p(x|θ)π(θ)&&&&j=1ii&&&&&&&&n&&&&&&&&i=1,2,L&&&&&&&&(2)&&&&&&&&假如总体X也是离散的,那只要把(1)或(2)中的密度函数p(x|θ)看作概率函数p(X=x|θ)即可。&&&&&&&&5.后验分布是三种信息的综合&&&&一般说来,先验分布π(θ)是反映人们在抽样前对θ的认识,后验分布π(θ|x)是反映人们在抽样后对θ的认识。之间的差异是由于样本x出现后人们对θ认识的一种调整。所以后验分布π(θ|x)可以看作是人们&&&&&&&&第14页&&&&&&&&&&&&用总体信息和样本信息(综合称为抽样信息)对先验分布π(θ)作调整的结果。例为了提高某产品质量,公司经理考虑增加投资来改进土产设备,预计需投资90万元,但从投资效果看,下属部门有二种意见:θ1:改进生产设备后,高质量广品可占90%θ2:改进生产设备后,高质量产品可占70%经理当然希望θ1发生,公司效益可得很大提高,投资改进设备也是合算的。但根据下属二个部门过去建议被采纳的情况、经理认为,θ1的可信程度只有40%,θ2的可信程度只有60%。即π(θ1)=0.4,π(θ2)=0.6这二个都是经理的主观概率。经理不想仅用过去的经验来决策此事,想慎重一些,通过小规模试验后观其结果再定。为此做了一项试验,试验结果(记为A)如下:A:试制五个产品,全是高质量的产品。经理对这次试验结果很高兴.希望用此试验结果来修改他原先对θ1和θ2的看法,即要求后验概率π(θ1|A)与π(θ2|A)。这可用贝叶斯公式的离散形式(2)来完成。如今已有先验慨率π(θ1)与π(θ2)。还需要二个条件概率p(A|θ1)与p(A|θ2),这可用二项分布算得&&&&p(A|θ1)=0.95=0.590,p(A|θ2)=0.75=0.168&&&&&&&&由全概率公式可算得p(A)=p(A|θ1)π(θ1)+p(A|θ2)π(θ2)=0.337。最后由(2)式可算得π(θ1|A)=P(A|θ1)π(θ1)/P(A)=0.236/0.337=0.700π(θ2|A)=P(A|θ2)π(θ2)/P(A)=0.101/0.337=0.300这表明,经理根据试验A的信息调整自已的看法,把对θ1和θ2的可信度0.和0.6调整到0.和0.473。后老是综合了经理的主观概率和试验结果而获得的,要比主观概率更有吸引力,更贴近当今的实际,这就是贝叶斯公式的应用。经过实验A后,经理对增加投资改进质量的兴趣增大。但因投资额大,还想再做一次小规模试验,观其结果再作决策。为此又做了一批试验,试验结果(记为B)如下:B:试制10个产品,有9个是高质量产品。经理对此试验结果更为高兴。希望用此试验结果对θ1和θ2再作一次调整。为此把上次后验概率看作这次的先验概率,即π(θ1)=0.7,π(θ2)=0.3用二项分布还可算得P(B|θ1)=10(0.9)9(0.1)=0.387&&&&P(B|θ2)=10(0.7)9(0.3)=0.121&&&&&&&&由此可算得P(B)=0.307和后验概率π(θ1|B)=0.883,π(θ2|B)=0.117。经理看到,经过二次试验,θ1(高质量产品可占90%)的概率已上升到0.883,到可以下决心的时候了,他能以88.3%的把握保证此项投资能取得较大经济效益。&&&&&&&&二、Bayes判别的基本思想&&&&Bayes统计的基本思想:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验认识作修正,得到所谓后验概率分布,而各种统计推断都基于后验概率分布来进行。将Bayes统计的思想用于判别分析,就得到Bayes判别方法。设G1,G2,K,Gk为k个p维总体,分别具有互不相同的p维概率密度函数f1(x),f2(x),K,fk(x)。在进行判别分析之前,我们往往已对各总体有一定了解,实际中通常表现在某些总体较之其它总体出现的可能性会相对大一些。例如,对某厂生产的产品,正品总比次品多,即出现的样本观测值属于正品总体的可能性要比属于次品总体的可能性要相对大一些。又如,在全年365天中,发生大地震的可能性要比无大地震或无地震的可能性要小得多。因此,一个合理的判别准则应该考虑到每个总体出现的可能性的大小(即先验概率分布)。一般来说,将一个随机样本观测值应该首先考虑判入有较大可能出现的总体中。设这k个总体出&&&&第15页&&&&&&&&&&&&现的先验概率分布为q1,q2,K,qk,显然应有&&&&qi≥0(i=1,2,L,k)且∑qi=1&&&&i=qk&&&&&&&&除考虑各总体出现的先验概率外,还应考虑误判所造成的损失问题。在大多数实际问题中,若将属于总体G1的样品归为G2,则会造成一定的损失,反之亦然,但造成损失的程度可能有所不同。例如,将一个正品电子元件判为次品,所损失的只是生产厂家(如果这种元件的成本不是很昂贵的话),但若判为正品而使用在更大的系统中,则有可能造成整个系统的损坏(这种损失往往是很大的)。又如,将实际生病的人判为无病,有可能导致病情加重甚至死亡而造成损失。反之将无病者诊断为有病,可给他们造成不必要的医疗费用支出和精神负担。总之,在制定判别准则时,应考虑到误判的损失问题。而这通常在判别分析前就是可以估计的,我们用表3.1的损失矩阵描述。表3.1损失矩阵判定为实际为&&&&G1G2G1G2c(2|1)&&&&&&&&LL&&&&&&&&Gkc(k|1)c(k|2)&&&&&&&&0&&&&c(1|2)&&&&&&&&0&&&&Mc(2|k)L&&&&&&&&MGk&&&&&&&&Mc(1|k)&&&&&&&&M&&&&&&&&0&&&&&&&&其中c(j|i)表示将实际属于Gi的样品判为Gj所造成的损失度量。样品属于总体Gi,因此一个判别准则可简记为D=(D1,D2,K,Dk)。&&&&P(j|i,D)=∫fi(x)dx,j=1,2,L,k,j≠i&&&&&&&&一个判别准则的实质就是对Rp空间作一个不相重叠的划分:D1,D2,K,Dk,若样品X落入Di,则判此&&&&&&&&以P(j|i,D)表示在判别准则D之下将事实上来自Gi的样品误判为来自Gj的概率,则&&&&Dj&&&&&&&&由此误判而造成的损失为c(j|i)j=1,2,L,k,j≠i。因此,在一个给定的判别准则D之下对Gi而言所造成按照各误判概率加权求和,即在此判别准则下,的损失,应该是误判为G1,G2,K,Gi?1,Gi+1,K,Gk的所有损失,将来自Gi的样品错判为其它总体的期望损失为(注意c(i|i)=0)&&&&li&&&&j=1,j≠i&&&&&&&&∑&&&&&&&&k&&&&&&&&P(j|i,D)c(j|i)=∑P(j|i,D)c(j|i)&&&&j=1&&&&&&&&k&&&&&&&&又由于各总体Gi出现的先验概率为qi(i=1,2,L,k),故在判别准则D之下总期望损失为&&&&L&&&&&&&&∑ql=∑∑qc(j|i)P(j|i,D)&&&&i=1iii=1j=1i&&&&&&&&k&&&&&&&&k&&&&&&&&k&&&&&&&&我们看到,总期望损失L与判别准则D有关,Bayes判别即选择D=(D1,D2,K,Dk),使L达到最小。下面分两个及多个总体情形分别予以讨论。&&&&&&&&三、两总体的Bayes判别&&&&损失分别为c(2|1)和c(1|2)。对R2中的一个划分:D=(D1,D2),有&&&&P(2|1,D)=∫&&&&D2&&&&&&&&1.一般总体设G1,G2为2个p维总体,概率密度分别为f1(x)和f2(x),总体G1,G2的先验概率分布为q1和q2,误判&&&&f1(x)dx&&&&&&&&P(1|2,D)=∫f2(x)dx&&&&D1&&&&&&&&则总期望损失为&&&&L=q1c(2|1)P(2|1,D)+q2c(1|2)P(1|2,D)=q1c(2|1)∫&&&&D2&&&&&&&&f1(x)dx+q2c(1|2)∫f2(x)dx&&&&D1&&&&&&&&第16页&&&&&&&&&&&&=∫q2c(1|2)f2(x)dx?∫q1c(2|1)f1(x)dx+∫q1c(2|1)f1(x)dx+∫q1c(2|1)f1(x)dx&&&&D1D1D1D2&&&&&&&&=∫=∫=∫&&&&&&&&D1&&&&&&&&[q2c(1|2)f2(x)?q1c(2|1)f1(x)]dx+∫D+D&&&&1&&&&&&&&2&&&&&&&&q1c(2|1)f1(x)dxf1(x)dx&&&&&&&&D1&&&&&&&&[q2c(1|2)f2(x)?q1c(2|1)f1(x)]dx+q1c(2|1)∫D+D&&&&1&&&&&&&&2&&&&&&&&D1&&&&&&&&[q2c(1|2)f2(x)?q1c(2|1)f1(x)]dx+q1c(2|1)&&&&&&&&由于第二项与D无关,要使L达到最小,只需第一项达到最小。这只需选择D1为上式中的被积函数取非正值的范围即可,即取D1为&&&&?f(x)q2c(1|2)?≥D1={x|q2c(1|2)f2(x)?q1c(2|1)f1(x)≤0}=?x|1f2(x)q1c(2|1)?&&&&&&&&此时,&&&&?f(x)q2c(1|2)?D2=?x|1f2(x)q1c(2|1)?&&&&&&&&因此,两一般总体的Bayes判别如下:对给定的样品x,计算两总体的概率密度函数在x处的值,判定准则为&&&&x∈G1,若?x∈G,若2f1(x)q2c(1|2)≥f2(x)q1c(2|1)f1(x)q2c(1|2)f2(x)q1c(2|1)&&&&&&&&下面给出此判别准则的几个特例:(1)等先验概率的情形实际应用中,若各总体的先验概率分布未知,一般有两种处理方法,如果训练样本是通过随机观测得到的,通常取先验概率为各个训练样本的容量占总观测数的比例。如果对其先验概率分布基本不了解,可假定各总体的先验概率观测值相等。在两总体情况下,即假定q1=q2=1/2,这时Bayes判别准则为&&&&x∈G1,若?x∈G,若2f1(x)c(1|2)≥f2(x)c(2|1)f1(x)c(1|2)f2(x)c(2|1)&&&&&&&&(2)等误判损失的情形若误判损失难以确定,通常假定c(1|2)=c(2|1)。这时Bayes判别准则为&&&&x∈G1,若?x∈G,若2f1(x)q2≥f2(x)q1f1(x)q2f2(x)q1&&&&&&&&(3)等先验概率及等误判损失的情形这时,q1=q2=1/2,c(1|2)=c(2|1),从而Bayes判别准则为&&&&?x∈G1,若f1(x)≥f2(x)x∈G2,若f1(x)f2(x)&&&&&&&&应用中,总体的概率密度函数通常是未知的,我们可用的资料是来自各总体的训练样本。通常的作法是利用训练样本对总体的概率密度作非参数估计(如最邻近估计,核估计等)。由于这些估计涉及较多的&&&&第17页&&&&&&&&&&&&统计和数学知识,在此不作进一步介绍。下面只就正态总体情况作详细讨论。2.一般总体设G1,G2为2个不同的p维正态总体,这时其概率密度为&&&&fi(x)=(2π)&&&&?p2&&&&&&&&πi&&&&&&&&?&&&&&&&&12&&&&&&&&?1?exp(xi)′∑i?1(xi)?,i=1,2?2?&&&&&&&&(1)若∑1=∑2=∑这时,由距离判别中的相关结论,可得&&&&f1(x)1?1=exp?(x2)′∑?1(x2)?(x1)′∑11(x1)?2f2(x)2?2?&&&&?1?=expd2(X,G2)?d2(X,G1)?2?=exp{W(X)}&&&&&&&&其中,W(X)=?x?&&&&&&&&&&&&&&&&′1(?1+?2)?∑?1(?12)?2?&&&&&&&&从而,前面的Bayes判别准则为&&&&q2c(1|2)x∈G1,若W(x)≥lnq1c(2|1)?q2c(1|2)?x∈G2,若W(x)ln?qc(2|1)1&&&&&&&&我们看到,在总体服从正态分布的假定下,Bayes判别函数与第二节的等协方差矩阵的距离判别函数是一样的,只是判别准则中的判别限有所差异,这是因为Bayes判别考虑了总体的先验概率分布和误判损失。若假定了等先验概率和等误判损失,则二者就完全一样了。但值得注意的是距离判别中并未假定G1和G2为正态总体。&&&&实际应用中,若?1,?2,∑未知,则可以用训练样本估计,即用?1=x(1),?2=x(2)以及?(n?1)S1+(n2?1)S2代替W(X)中的?,?,∑。∑=112n1+n2?2&&&&&&&&(2)若∑1≠∑2经推导,可得判别准则为&&&&?x∈G1,若W*(x)≥K*?x∈G2,若W(x)K?&&&&′2其中,W*(x)=?x′(∑11?∑?1)x+(?1′∑112∑?1)x,2&&&&&&&&12&&&&&&&&?qc(1|2)?1?∑1?1?1′?1K=ln?2?+(?1′∑1?12∑2?2)?+ln?q1c(2|1)?2?∑2?2?实际应用中,若?1,?2,∑未知,则可以用训练样本估计,即用?1=x(1),?2=x(2)以及∑1=S1,∑2=S2。3.应用举例表数据是某气象站预报某地区有无春旱的观测资料,x1和x2是与气象有关的综合预报因子。其中包括春旱发生的6个年份的x1、x2的观测值和无春旱的8个年份的相应观测值。其先验概率分别用训练样本的&&&&&&&&容量比例确定,即q1=下建立判别准则。&&&&&&&&68和q2=,并假定误判损失c(1|2)=c(2|1)。试在正态总体及等协方差矩阵的假定1414&&&&&&&&表3.2春旱&&&&&&&&某气象站预报有无春旱的数据无春旱&&&&第18页&&&&&&&&&&&&序号1234*56&&&&&&&&x1&&&&&&&&x2&&&&&&&&%W(x)&&&&&&&&24.824.126.623.525.527.4&&&&&&&&-2.0-2.4-3.0-1.9-2.1-3.1&&&&&&&&6.06.9&&&&&&&&序号&&&&&&&&x1&&&&&&&&x2&&&&&&&&%W(x)&&&&&&&&22.121.622.022.822.721.522.121.4&&&&&&&&-0.7-1.4-0.8-1.6-1.5-1.0-1.2-1.3&&&&&&&&5.76.25.&&&&&&&&注:*代表误判。解:情形一:当∑1=∑2=∑时,由表中数据可以求得&&&&?1=x(1)=(25.32,?2.42)′,?2=x(2)=(22.03,?1.19)′,?12=x(1)?x(2)=(3.29,?1.23)′,(1)(2)11(?1+?2)=2(x+x)=(23.68,?1.81)′2&&&&&&&&?2.220?0.71?1.08?0.26?11?0.170.26?S1=?∑∑?,S2=,=12(5S1+7S2)=,=?0..0.17?0.116?0.261.08&&&&&&&&?qc(1|2)4?ln?2?=ln=0.288q1c(2|1)3&&&&&&&&则判别函数&&&&1?0.170.263.29?1[0...527]=0.116?0.261.08?1.23?0.116%%为应用方便,令W(x)=0.0x。由W(x)≥0.288得W(x)≥6.560,从而判别准则为&&&&W(x)=[x1?23.68,x2+1.81]&&&&12&&&&&&&&%?x∈G1(春旱),若W(x)≥6.560%?x∈G2(无春旱),若W(x)6.560?%由此差别准则回判14个样品,其W(x)的值列入前表中各总体的最后一列。误判的只有一个,即春旱&&&&&&&&总体中的第4号样品,貌似误判率只有1/14=0.07。情形二:当∑1≠∑2时,由表中数据可以求得&&&&&&&&因此可以得到:&&&&&&&&由K的计算公式可得:&&&&&&&&第19页&&&&&&&&&&&&利用此准则对原14个样本进行回判得W*(x)的值见表3.3。表3.3气象丫预报有无春旱数据的回判结果序号春旱G1无春旱G21-607.40-629.612-610.34-627.353-569.47-629.074-618.86-624.245-598.63-625.096-552.95-627.91-627.55-627.4378&&&&&&&&由此表可知,所有样本回判结果均无误,即貌似误判率为零。由于此题中两总体的训练样本容量均很小,因此还不能简单地认为该判别准则较前面的准则为优,但从∑1和∑2的估计量S1,S2来看,二者确有较大差异,因此认为∑1≠∑2似乎更为合理,而后者的计算量要比前者大许多。&&&&&&&&四、多总体的Bayes判别&&&&略。&&&&&&&&§5&&&&&&&&逐步判别法&&&&&&&&前面所介绍的判别方法都是用已给的全部变量来建立判别式,但这些变量在判别式中所起的作用,一般来说是不同的,如果将判别能力低微的变量保留在判别式中会干扰判别效果。如何筛选出具有显著判别能力的变量来建立判别式?逐步判别为此提供了一种途径。&&&&&&&&一、基本思想&&&&其做法与逐步回归的做法类似,采用“有进有出”的算法,变量按其重要程度逐步引入,原引入的变量也可能由于其后新变量的引入使之丧失重要性而被剔除,每步引入或剔除变量,都作相应的统计检验。&&&&&&&&二、引入和剔除变量所选用的统计量&&&&1.引入变量的检验统计量2.删除变量的检验统计量3.计算步骤&&&&&&&&三、应用举例应用举例&&&&&&&&第20页&&&&&&&&&&&&§6&&&&一、教材中的案例&&&&&&&&案例分析&&&&&&&&例:从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。数据见教材P108。&&&&&&&&二、经济管理中的案例&&&&全国30个省、市、自治区,有5个变量,分别为:多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入、城镇人口比例。现依据这些变量作为判别变量对各地区进行判别分析。假设有理由可以断定其中的一些地区为一类、二类和三类地区,但是同时还有一些地区则很难进行类型归属,可以通过分组变量来反映每个安全的分组属性。要求根据已知分组类型的案例建立判别方程,计算各种判别分析统计指标,并在此基础上完成未知分组属性的那些个体的判别分析。&&&&&&&&附:SPSS软件中判别分析模型的参数指标及统计检验1.非标准化判别系数判别系数又称函数系数(functioncoefficient),其中还进一步分为两种:非标准化的和标准化的。非标准化判别系数(unstandardized)也称粗系数(rawcoefficients)。该系数的大小由于受到量纲等因素的影响,有时难以区分变量在判别函数地位的大小。2.标准化判别系数以标准化系数表达的判别函数不再有常数项,并且函数中出现的自变量不再是原始变量,而是标准化的变量。3.结构系数判别分析中的结构系数(structuralcoefficient)又被称为判别载荷(discriminantloading),它实际上是某个判别变量xi与判别值y之间的相关系数,它表达两者之间的拟合水平。当这个系数的绝对值很大(接近于1)时,这个函数表达的信息与这个变量的信息几乎相同。当这个系数接近于0时,它们之间就没有什么共同之处。结构系数有两种,一种是总结构系数;另一种是组内结构系数。总结构系数基于总相关之上。它们的用途是在于识别由这些函数携带的在分组间进行判别的信息。然而,有时需要探求一个函数与分组内部的变量的紧密联系程度。这一信息可以从汇合的组内相关(pooledwithin-groupscorrelations),又称组内结构系数(within-groupsstructurecoefficient)得到。4.分组的矩心分组的矩心(groupcentroid)描述在判别空间中每一组案例的中心位置。它是通过将基本判别模型中代入所有判别变量的平均值所计算出来的。其结果,每个判别函数的计算值便是每个分组在各判别轴上的坐标值。考察在判别空间中每个案例点与各组的矩心之间的距离,便于分析具体案例分组属性的倾向。5.判别能力指数在进行判别分析时,往往可以得到多个判别函数,其中有些判别能力,而有些判别能力则较弱。这里所说的判别力既包括了每个判别变量对于判别函数的作用,也包括了本判别函数对于所有原始变量总方差的代表性。判别力指数(potencyindex)有时也被称为方差百分比(percentofvariance)。判别分析通过一个判别函数所能代表的所有原始变量的总方差百分比来表示每个判别函数的判别力。在判别分析中,一个判别函数所代表的方差量用所对应的特征值来相对表示。那么,特征值的合计就相对代表了总方差量。而每个特征值占这一合计的比例就是相应判别函数能够代表的总方差比例,即它的判别力指数。当然,判别力指数越大的判别函数越重要。&&&&第21页&&&&&&&&&&&&6.残余判别力残余判别力是指在以前计算的函数已经提取过原始信息之后,残余的变量信息对于判别分组的能力7.Fisher判别系数可以用来对某个个体进行直接的判别。&&&&&&&&【本章思考题】本章思考题】&&&&1.判别分析的基本类型有哪些?2.判别分析的基本方法有哪些?3.阐述两总体Fisher判别分析的基本步骤。&&&&&&&&【作业】作业】&&&&&&&&第22页&&&&&&&&&&&&&&&& &&&&}

我要回帖

更多关于 最小均方误差准则 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信