求解数据公式

点击联系发帖人 时间：2022-07-12 02:54

韦达定理公式

根据已知条件，设置函数的方法及步骤是：

1、打开Excel工作表；

2、根据下述已知条件：

可以通过IF函数建立一个嵌套条件函数；

3、在A2单元格输入以下公式

公式表示：A1加上根据A1条件的不同而返回的不同的数值。

1、打开Excel工作表；

2、根据已知条件，判断条件规律，是在一个升序的数列中，返回对应的数值；可以将这组升序数值整理到一个区域，也可以直接在公式中罗列，通过LOOKUP函数返回升序数列中小于条件的最大值所对应的数值。

公式表示：在升序数列D列中，查找比A1数值小的最大值，并返回其对应的E列的数值，然后加上A1

1、打开Excel工作表；

2、根据已知条件判断，返回值与5的倍数有关系，可以建立与5的倍数的关系式。

公式表示：A1单元格数值除以5的整数，加上A1，再加上2 。

}

　　说明：为什么要存在拉普拉斯平滑，因为在P(W|C)中，在C分类的条件下，W为多个特征，但是如果W中存在一个为0的情况，那个整个结果就为0，这样不合理。概率统计，为了是统计在分类条件下，特征的成立数

P(C|W) = —————————— 说明：P为概率，|在C的前提下W的概率， C分类， W多个条件（特征值） P(C):每个文档类别的概率（某文档类别数/文档类别总数） P(W|C):给定类别特征（被预测文档中出现的词）的概率避免出现次数为0的时候，计算结果直接为0 说明：a指系数一般为1， m为W(多个条件)的个数，NI为每个条件的个数，N为W（多个条件）的总个数源于古典数学理论，有稳定的分类效率对缺失数据不太敏感，算法比较简单，常用语文本使用样本属性独立性假设，与样本属性关联密切。如果训练集准确率不高，会影响结果 # 训练集中词的重要性统计 # 根据训练集转换测试集二分类的算法评价指标（准确率、精准率、召回率、混淆矩阵、AUC）预测值 0 预测值 1 F1 = ————————————— = ——————————————————— print("精准率和召回率：

　　3）决策树和随机森林

　　　　　　　　信息熵：
 说明：log 低数为2，单位比特，H(X)为熵,x为特征具体值，p(x)为该值在x特征值中的概率

　　说明：随机森林是在决策树的基础上，种植多颗树的方式，只是每一颗树的深度没有决策树那么深。

　　　　 特征复杂度决定了决策树的深度，不是树的深度越深，就越好的，有可能存在计算不出结果。

　　　　信息熵：是确定树深度的最大值。

　　　　信息增益：得知特征X的信息而使得类Y的信息的不确定性的减少程度。

简化理解和解释，树木可视化需要很少的数据准备，其他技术通常需要数据归一化减枝cart算法(决策树API中已经实现) 在当前所有算法中具有极好的准确率能够有效的运行在大数据集上能够处理具有高维特征的输入样本中，而且不需要降维能够评估各个特征在分类问题上的重要性

说明：log 低数为2，单位比特，H(X)为熵,x为特征具体值，p(x)为该值在x特征值中的概率简化理解和解释，树木可视化需要很少的数据准备，其他技术通常需要数据归一化减枝cart算法(决策树API中已经实现) 在当前所有算法中具有极好的准确率能够有效的运行在大数据集上能够处理具有高维特征的输入样本中，而且不需要降维能够评估各个特征在分类问题上的重要性 # 采用DictVectorizer目的是，数据更多是文本类型的，借助dict的方式来处理成0/1的方式 # 网络搜索与交叉验证

（m行， l列）* （l行， n列） = （m行， n列）

w：权重， b偏置项， x：特征数据 b：单个特征是更加通用通过一个或者多个自变量与因变量之间进行建模的回归分析其中可以为一个或者多个自变量之间的线性组合（线性回归的一种）涉及变量为两个或者两个以上

　　b、损失函数(最小二乘法)

　　　　 损失函数(最小二乘法)(误差的平方和)：
 yi：训练样本的真实值， hw(xi)：第i个训练样本的特征、组合预测值

　　说明：当损失值在最小的时候，说明，函数的拟合状态最好，这种方式，也就更加接近具体的预测轨迹

X：特征值矩阵， Y：目标值矩阵 Xt：转置特征值（行列替换）特征比较复杂时，不一定能得出结果

w1 = -w1 - α———————————————— || w0 = -w0 - α———————————————— || α：学习速率，需要手动指定 ———————————————— 表示方向

　　说明：在求最小损失值的时候，需要不断的求解W（权重值），权重值的求解方式一般为上面两种。求出的值，然后在计算损失值，然后在反过来推导，权重值。如此得出结果，速率越慢当然拟合程度越高，但都是拟合越高越好。

过拟合（训练集和测试集表现不好）：原始特征数量过多，存在一些嘈杂的特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点进行特征选择，消除一些关联性不大的特征（不好做）交叉验证（让所有数据进行训练）

　　最理想的状态不是第三种，而是第二种。

3、当特征数量n很大时，也比较适用 4、适用于各种类型的模型 1、不需要选择学习率α 3、需要计算(XtX)^(-1), 如果特征数量n很大时，时间复杂度很高，通常n<100000,可以接受 4、只能用于线性模型，不适合逻辑回归模型等其他模型

1、因为线性回归（LinearRegression）容易出现过拟合的情况，所有需要正则化 2、正则化的目的，就是将高幂（x^n,n很大），的权重降到接近于0 3、岭回归为带有正则化的线性回归 4、回归得到的系数更加符合实际，更加可靠，更存在病态数据偏多的研究中存在较大价值

 　　　　　　 1、具有l2正则化的线性最小二乘法

w：权重， b偏置项， x：特征数据 b：单个特征是更加通用通过一个或者多个自变量与因变量之间进行建模的回归分析其中可以为一个或者多个自变量之间的线性组合（线性回归的一种）涉及变量为两个或者两个以上（m行， l列）* （l行， n列） = （m行， n列）损失函数(最小二乘法)(误差的平方和)： yi：训练样本的真实值， hw(xi)：第i个训练样本的特征、组合预测值 X：特征值矩阵， Y：目标值矩阵 Xt：转置特征值（行列替换）特征比较复杂时，不一定能得出结果 w1 = -w1 - α———————————————— || w0 = -w0 - α———————————————— || α：学习速率，需要手动指定 ———————————————— 表示方向 yi：预测值 y：真实值 3、当特征数量n很大时，也比较适用 4、适用于各种类型的模型 1、不需要选择学习率α 3、需要计算(XtX)^(-1), 如果特征数量n很大时，时间复杂度很高，通常n<100000,可以接受 4、只能用于线性模型，不适合逻辑回归模型等其他模型 1、因为线性回归（LinearRegression）容易出现过拟合的情况，所有需要正则化 2、正则化的目的，就是将高幂（x^n,n很大），的权重降到接近于0 3、岭回归为带有正则化的线性回归 4、回归得到的系数更加符合实际，更加可靠，更存在病态数据偏多的研究中存在较大价值 1、具有l2正则化的线性最小二乘法 # 数据标准化(目的，特征值差异过大，按比例缩小) # 目标值也要进行标准化（目的，特征值标准化后，特征值值过大在回归算法中，得出的权重值差异过大） # 两次标准化实例的目的，就是不同数据之间的实例化不一样 # 目标值也要转成2维数组(-1,不知道样本数) # 4、线性回归正规算法 1、通过结果可以看出真实值和预测值的差距还是很大的。 2、这是直接通过线性回归的正确公式来算出权重值的结果。 3、为了更好的减少误差，所以采用梯度下降的方式，来重新计算权重值 # 注意这里的预测值是标准化过后的数据，需要转回来 # 4、线性回归梯度下降算法 # 注意这里的预测值是标准化过后的数据，需要转回来 # 4、线性回归正则化算法（岭回归） # alpha为超参数，可以通过网格搜索和交叉验证，来确认alpha的值 # 注意这里的预测值是标准化过后的数据，需要转回来

　　说明：从结果可以看出差异并不是很大，那是因为训练次数的原因，可以通过多次的训练来达到效果

g(z) = —————————— 输入：[0,1]区间的概率，默认值0.5作为阈值

　　说明：逻辑回归，是算一种二分类算法。比如：是否是猫、狗等。我们不能完全确认，他是否是猫，那就用概率的方式来确认分类。概率值越高说明是，反之否。通过大约阈值来确认分类，这种方式人图像识别中还是比较常用的方式。

与线性回归原理相同，但是由于是分类问题。损失函数不一样。 只能通过梯度下降求解。 hθ(x)为x的概率值
　　　　　　　　　说明：在均方误差中不存在多个最低点，但是对数似然损失函数，会存在多个低点的情况 cost损失值越小，那么预测的类别精准度更高

　　对数似然损失函数表现：（目前没有好的方式去解决确认最低点的问题）

　　　　1、多次随机初始化，多次比较最小值结果

　　　　2、求解过程中，调整学习率

　　上面两种方式只是改善，不是真正意义上的解决这个最低点的问题。虽然没有最低点，但是最终结果还是不错的。

　　损失函数，表现形式：

　　说明：如果真实值为y=1时，当hθ(x)的概率越接近1时，说明损失函数的值越小。图形公式 -log(P)

　　说明：如果真是值为y=0时，概率越小，损失值就越小

g(z) = —————————— 输入：[0,1]区间的概率，默认值0.5作为阈值与线性回归原理相同，但是由于是分类问题。损失函数不一样。只能通过梯度下降求解。说明：在均方误差中不存在多个最低点，但是对数似然损失函数，会存在多个低点的情况 cost损失值越小，那么预测的类别精准度更高 C为回归系数默认值1.0

　　五、上面说的都是监督学习的算法，下面介绍一种非监督学习的算法（k-mean）

　　1）步骤和优缺点

sci = ——————————— 注：对于每个点i为已聚类数据中的样本，bi为i到其他族群的所有样本的距离最小值，ai为i到本族群的距离平均值最终算出所有的样本的轮廓系数平均值

分类个数，一般是知道分类个数的，如果不知道，进行超参数设置 1）随机在数据中抽取K个样本，当做K个类别的中心点 2）计算其余的点到这K个点的距离，每一个样本有K个距离值，从中选出最近的一个距离点作为自己的标记 3）计算着K个族群的平均值，把这K个平均值，与之前的K个中心点进行比较。如果不同：把K个平均值作为新的中心点，进行计算采用迭代式算法，直观易懂并且非常实用容易收敛到局部最优解（多次聚类）注意：聚类一般是在做分类之前 # 交叉表(特殊分组) # （用户ID，类别） sci = ——————————— 注：对于每个点i为已聚类数据中的样本，bi为i到其他族群的所有样本的距离最小值，ai为i到本族群的距离平均值最终算出所有的样本的轮廓系数平均值

}

第4章计划任务数为平均数时（ⅰ）当计划任务数表现为提高率时 ⅱ）当计划任务数表现为降低率时时间进度= 对于分组数据，众数的求解公式为：对于分组的数值型数据，中位数按照下述公式求解：对于分组的数值型数据，四分位数按照下述公式求解：（1）简单算数平均数（2）加权算数平均数各变量值与算术平均数的离差之和为零。各变量值与算术平均数的离差平方和为最小。 2、调和平均数(Harmonic mean) （1）简单调和平均数（2）加权调和平均数 3、几何平均数（1）简单几何平均数（2）加权几何平均数一、分类数据：异众比率二、顺序数据：四分位差三、数值型数据的离散程度测度值 1、极差(Range) 2、平均差（1）如果数据是未分组数据（原始数据），则用简单算术平均法来计算平均差：（2）如果数据是分组数据，采用加权算术平均法来计算平均差： 3、方差(Variance)与标准差总体方差和标准差的计算公式：方差：（未分组数据）（分组数据）标准差：（未分组数据）（分组数据）样本方差和标准差方差的计算公式未分组数据：分组数据：标准差的计算公式未分组数据：分组数据： 4、变异系数(离散系数) 标准差系数计算公式（样本离散系数）（总体离散系数）（样本离散系数）（总体离散系数）一、分布的偏态对未分组数据对分组数据二、分布的峰态（未分组数据）对已分组数据第5章离散型随机变量的概率分布（2）二项分布 (3) 泊松分布: 当n很大，p很小时，B(n,p)可近似看成参数l=np的P(l).即，分布函数 F(x) 的性质： (a)单调性若，则 (b)有界性 (c)右连续性 (d)对任意的x0 若F(x)在X=x0处连续，则连续型随机变量的概率分布概率密度函数 f(x)的性质 (a)非负性 f(x) ≥0; (b)归一性 ; (c) ; (d)在f(x)的连续点x处，有 (e) 几种常见的连续型分布 (1)均匀分布若随机变量X的概率密度为则称X在(a,b)上服从均匀分布，记为X～U (a,b). 另：对于 , 我们有 (2) (2)指数分布若随机变量X的概率密度为其中常数，则称X服从参数为的指数分布，相应的分布函数为 .随机变量的数学期望连续型随机变量的数学期望：数学期望的性质性质1. 设C是常数，则E(C)=C；性质2. 若X和Y相互独立，则 E(XY)=E(X)E(Y)；性质3. E(X±Y) =E(X) ±E(Y) ；性质4. 设C是常数，则 E(CX)=C E(X)。性质2可推广到任意有限多个相互独立的随机变量之积的情形。常见的离散型随机变量的数学期望： (a)两点分布若X～B(1，p)，则EX=p. (b)二项分布若X～B(n，p)，则EX=np. (c)泊松分布若X～P( )，则EX= . 常见的连续型随机变量的数学期望： (a）均匀分布: 设X～U (a,b)，则EX=(a+b)/2。 (b）指数分布: 设X服从参数为的指数分布，则

}

我就爱股票网