求解数据公式

根据已知条件,设置函数的方法及步骤是:

1、打开Excel工作表;

2、根据下述已知条件:

可以通过IF函数建立一个嵌套条件函数;

3、在A2单元格输入以下公式

公式表示:A1加上根据A1条件的不同而返回的不同的数值。

1、打开Excel工作表;

2、根据已知条件,判断条件规律,是在一个升序的数列中,返回对应的数值;可以将这组升序数值整理到一个区域,也可以直接在公式中罗列,通过LOOKUP函数返回升序数列中小于条件的最大值所对应的数值。

公式表示:在升序数列D列中,查找比A1数值小的最大值,并返回其对应的E列的数值,然后加上A1

1、打开Excel工作表;

2、根据已知条件判断,返回值与5的倍数有关系,可以建立与5的倍数的关系式。

公式表示:A1单元格数值除以5的整数,加上A1,再加上2 。

}

  说明:为什么要存在拉普拉斯平滑,因为在P(W|C)中,在C分类的条件下,W为多个特征,但是如果W中存在一个为0的情况,那个整个结果就为0,这样不合理。概率统计,为了是统计在分类条件下,特征的成立数

P(C|W) = —————————— 说明:P为概率,|在C的前提下W的概率, C分类, W多个条件(特征值) P(C):每个文档类别的概率(某文档类别数/文档类别总数) P(W|C):给定类别特征(被预测文档中出现的词)的概率 避免出现次数为0的时候,计算结果直接为0 说明:a指系数一般为1, m为W(多个条件)的个数,NI为每个条件的个数,N为W(多个条件)的总个数 源于古典数学理论,有稳定的分类效率 对缺失数据不太敏感,算法比较简单,常用语文本 使用样本属性独立性假设,与样本属性关联密切。如果训练集准确率不高,会影响结果 # 训练集中词的重要性统计 # 根据训练集转换测试集 二分类的算法评价指标(准确率、精准率、召回率、混淆矩阵、AUC) 预测值 0 预测值 1 F1 = ————————————— = ——————————————————— print("精准率和召回率:

  3)决策树和随机森林

        信息熵:
 说明:log 低数为2,单位比特,H(X)为熵,x为特征具体值,p(x)为该值在x特征值中的概率
 

  说明:随机森林是在决策树的基础上,种植多颗树的方式,只是每一颗树的深度没有决策树那么深

       特征复杂度决定了决策树的深度,不是树的深度越深,就越好的,有可能存在计算不出结果。

       信息熵:是确定树深度的最大值。

       信息增益:得知特征X的信息而使得类Y的信息的不确定性的减少程度。

简化理解和解释,树木可视化 需要很少的数据准备,其他技术通常需要数据归一化 减枝cart算法(决策树API中已经实现) 在当前所有算法中具有极好的准确率 能够有效的运行在大数据集上 能够处理具有高维特征的输入样本中,而且不需要降维 能够评估各个特征在分类问题上的重要性
说明:log 低数为2,单位比特,H(X)为熵,x为特征具体值,p(x)为该值在x特征值中的概率 简化理解和解释,树木可视化 需要很少的数据准备,其他技术通常需要数据归一化 减枝cart算法(决策树API中已经实现) 在当前所有算法中具有极好的准确率 能够有效的运行在大数据集上 能够处理具有高维特征的输入样本中,而且不需要降维 能够评估各个特征在分类问题上的重要性 # 采用DictVectorizer目的是,数据更多是文本类型的,借助dict的方式来处理成0/1的方式 # 网络搜索与交叉验证
(m行, l列)* (l行, n列) = (m行, n列)
w:权重, b偏置项, x:特征数据 b:单个特征是更加通用 通过一个或者多个自变量与因变量之间进行建模的回归分析 其中可以为一个或者多个自变量之间的线性组合(线性回归的一种) 涉及变量为两个或者两个以上

  b、损失函数(最小二乘法)

     损失函数(最小二乘法)(误差的平方和):
 yi:训练样本的真实值, hw(xi):第i个训练样本的特征、组合预测值

  说明:当损失值在最小的时候,说明,函数的拟合状态最好,这种方式,也就更加接近具体的预测轨迹

X:特征值矩阵, Y:目标值矩阵 Xt:转置特征值(行列替换) 特征比较复杂时,不一定能得出结果
w1 = -w1 - α———————————————— || w0 = -w0 - α———————————————— || α:学习速率,需要手动指定 ———————————————— 表示方向

  说明:在求最小损失值的时候,需要不断的求解W(权重值),权重值的求解方式一般为上面两种。求出的值,然后在计算损失值,然后在反过来推导,权重值。如此得出结果,速率越慢当然拟合程度越高,但都是拟合越高越好。

过拟合(训练集和测试集表现不好): 原始特征数量过多,存在一些嘈杂的特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点 进行特征选择,消除一些关联性不大的特征(不好做) 交叉验证(让所有数据进行训练)

  最理想的状态不是第三种,而是第二种。

3、当特征数量n很大时,也比较适用 4、适用于各种类型的模型 1、不需要选择学习率α 3、需要计算(XtX)^(-1), 如果特征数量n很大时,时间复杂度很高,通常n<100000,可以接受 4、只能用于线性模型,不适合逻辑回归模型等其他模型
1、因为线性回归(LinearRegression)容易出现过拟合的情况,所有需要正则化 2、正则化的目的,就是将高幂(x^n,n很大),的权重降到接近于0 3、岭回归为带有正则化的线性回归 4、回归得到的系数更加符合实际,更加可靠,更存在病态数据偏多的研究中存在较大价值
        1、具有l2正则化的线性最小二乘法
 
w:权重, b偏置项, x:特征数据 b:单个特征是更加通用 通过一个或者多个自变量与因变量之间进行建模的回归分析 其中可以为一个或者多个自变量之间的线性组合(线性回归的一种) 涉及变量为两个或者两个以上 (m行, l列)* (l行, n列) = (m行, n列) 损失函数(最小二乘法)(误差的平方和): yi:训练样本的真实值, hw(xi):第i个训练样本的特征、组合预测值 X:特征值矩阵, Y:目标值矩阵 Xt:转置特征值(行列替换) 特征比较复杂时,不一定能得出结果 w1 = -w1 - α———————————————— || w0 = -w0 - α———————————————— || α:学习速率,需要手动指定 ———————————————— 表示方向 yi:预测值 y:真实值 3、当特征数量n很大时,也比较适用 4、适用于各种类型的模型 1、不需要选择学习率α 3、需要计算(XtX)^(-1), 如果特征数量n很大时,时间复杂度很高,通常n<100000,可以接受 4、只能用于线性模型,不适合逻辑回归模型等其他模型 1、因为线性回归(LinearRegression)容易出现过拟合的情况,所有需要正则化 2、正则化的目的,就是将高幂(x^n,n很大),的权重降到接近于0 3、岭回归为带有正则化的线性回归 4、回归得到的系数更加符合实际,更加可靠,更存在病态数据偏多的研究中存在较大价值 1、具有l2正则化的线性最小二乘法 # 数据标准化(目的,特征值差异过大,按比例缩小) # 目标值也要进行标准化(目的,特征值标准化后,特征值值过大在回归算法中,得出的权重值差异过大) # 两次标准化实例的目的,就是不同数据之间的实例化不一样 # 目标值也要转成2维数组(-1,不知道样本数) # 4、线性回归正规算法 1、通过结果可以看出真实值和预测值的差距还是很大的。 2、这是直接通过线性回归的正确公式来算出权重值的结果。 3、为了更好的减少误差,所以采用梯度下降的方式,来重新计算权重值 # 注意这里的预测值是标准化过后的数据,需要转回来 # 4、线性回归梯度下降算法 # 注意这里的预测值是标准化过后的数据,需要转回来 # 4、线性回归正则化算法(岭回归) # alpha为超参数,可以通过网格搜索和交叉验证,来确认alpha的值 # 注意这里的预测值是标准化过后的数据,需要转回来

  说明:从结果可以看出差异并不是很大,那是因为训练次数的原因,可以通过多次的训练来达到效果

g(z) = —————————— 输入:[0,1]区间的概率,默认值0.5作为阈值

   说明:逻辑回归,是算一种二分类算法。比如:是否是猫、狗等。我们不能完全确认,他是否是猫,那就用概率的方式来确认分类。概率值越高说明是,反之否。通过大约阈值来确认分类,这种方式人图像识别中还是比较常用的方式。

与线性回归原理相同,但是由于是分类问题。损失函数不一样。 只能通过梯度下降求解。 hθ(x)为x的概率值
          说明:在均方误差中不存在多个最低点,但是对数似然损失函数,会存在多个低点的情况 cost损失值越小,那么预测的类别精准度更高

   对数似然损失函数表现:(目前没有好的方式去解决确认最低点的问题)

    1、多次随机初始化,多次比较最小值结果

    2、求解过程中,调整学习率

  上面两种方式只是改善,不是真正意义上的解决这个最低点的问题。虽然没有最低点,但是最终结果还是不错的。

  损失函数,表现形式:

  说明:如果真实值为y=1时,当hθ(x)的概率越接近1时,说明损失函数的值越小。图形公式 -log(P)

  说明:如果真是值为y=0时,概率越小,损失值就越小

g(z) = —————————— 输入:[0,1]区间的概率,默认值0.5作为阈值 与线性回归原理相同,但是由于是分类问题。损失函数不一样。 只能通过梯度下降求解。 说明:在均方误差中不存在多个最低点,但是对数似然损失函数,会存在多个低点的情况 cost损失值越小,那么预测的类别精准度更高 C为回归系数默认值1.0

  五、上面说的都是监督学习的算法,下面介绍一种非监督学习的算法(k-mean)

   1)步骤和优缺点

分类个数,一般是知道分类个数的,如果不知道,进行超参数设置 1)随机在数据中抽取K个样本,当做K个类别的中心点 2)计算其余的点到这K个点的距离,每一个样本有K个距离值,从中选出最近的一个距离点作为自己的标记 3)计算着K个族群的平均值,把这K个平均值,与之前的K个中心点进行比较。 如果不同:把K个平均值作为新的中心点,进行计算 采用迭代式算法,直观易懂并且非常实用 容易收敛到局部最优解(多次聚类) 注意:聚类一般是在做分类之前
sci = ——————————— 注:对于每个点i为已聚类数据中的样本,bi为i到其他族群的所有样本的距离 最小值,ai为i到本族群的距离平均值 最终算出所有的样本的轮廓系数平均值
分类个数,一般是知道分类个数的,如果不知道,进行超参数设置 1)随机在数据中抽取K个样本,当做K个类别的中心点 2)计算其余的点到这K个点的距离,每一个样本有K个距离值,从中选出最近的一个距离点作为自己的标记 3)计算着K个族群的平均值,把这K个平均值,与之前的K个中心点进行比较。 如果不同:把K个平均值作为新的中心点,进行计算 采用迭代式算法,直观易懂并且非常实用 容易收敛到局部最优解(多次聚类) 注意:聚类一般是在做分类之前 # 交叉表(特殊分组) # (用户ID, 类别) sci = ——————————— 注:对于每个点i为已聚类数据中的样本,bi为i到其他族群的所有样本的距离 最小值,ai为i到本族群的距离平均值 最终算出所有的样本的轮廓系数平均值
}

第4章 计划任务数为平均数时 (ⅰ)当计划任务数表现为提高率时 ⅱ)当计划任务数表现为降低率时 时间进度= 对于分组数据,众数的求解公式为: 对于分组的数值型数据,中位数按照下述公式求解: 对于分组的数值型数据,四分位数按照下述公式求解: (1)简单算数平均数 (2)加权算数平均数 各变量值与算术平均数的离差之和为零。 各变量值与算术平均数的离差平方和为最小。 2、调和平均数(Harmonic mean) (1)简单调和平均数 (2)加权调和平均数 3、几何平均数 (1)简单几何平均数 (2)加权几何平均数 一、分类数据:异众比率 二、顺序数据:四分位差 三、数值型数据的离散程度测度值 1、极差(Range) 2、平均差 (1)如果数据是未分组数据(原始数据),则用简单算术平均法来计算平均差: (2)如果数据是分组数据,采用加权算术平均法来计算平均差: 3、方差(Variance)与标准差 总体方差和标准差的计算公式: 方差:(未分组数据) (分组数据) 标准差:(未分组数据) (分组数据) 样本方差和标准差 方差的计算公式 未分组数据 : 分组数据: 标准差的计算公式 未分组数据 : 分组数据: 4、变异系数(离散系数) 标准差系数计算公式 (样本离散系数)(总体离散系数) (样本离散系数) (总体离散系数) 一、分布的偏态 对未分组数据 对分组数据 二、分布的峰态 (未分组数据) 对已分组数据 第5章 离散型随机变量的概率分布 (2)二项分布 (3) 泊松分布: 当n很大,p很小时,B(n,p)可近似看成参数l=np的P(l).即, 分布函数 F(x) 的性质: (a)单调性 若 ,则 (b)有界性 (c)右连续性 (d)对任意的x0 若F(x)在X=x0处连续,则 连续型随机变量的概率分布 概率密度函数 f(x)的性质 (a)非负性 f(x) ≥0; (b)归一性 ; (c) ; (d)在f(x)的连续点x处,有 (e) 几种常见的连续型分布 (1)均匀分布 若随机变量X的概率密度为 则称X在(a,b)上服从均匀分布,记为X~U (a,b). 另:对于 , 我们有 (2) (2)指数分布 若随机变量X的概率密度为 其中常数 ,则称X服从参数为 的指数分布,相应的分布函数为 .随机变量的数学期望 连续型随机变量的数学期望: 数学期望的性质 性质1. 设C是常数,则E(C)=C; 性质2. 若X和Y相互独立,则 E(XY)=E(X)E(Y); 性质3. E(X±Y) =E(X) ±E(Y) ; 性质4. 设C是常数,则 E(CX)=C E(X)。 性质2可推广到任意有限多个相互独立的随机变量之积的情形。 常见的离散型随机变量的数学期望 : (a)两点分布 若X~B(1,p),则EX=p. (b)二项分布 若X~B(n,p),则EX=np. (c)泊松分布 若X~P( ),则EX= . 常见的连续型随机变量的数学期望: (a)均匀分布: 设X~U (a,b),则EX=(a+b)/2。 (b)指数分布: 设X服从参数为 的指数分布,则

}

我要回帖

更多关于 韦达定理公式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信