首页
博客
理论工具
数据分析
spss分析
amos分析
python数据分析
结构方程模型
回归与中介
论文写作
未分类
数据服务
关于我们
0
个人中心
我的订单
退出
登录
登录
注册
Get Started
离差-变差-方差-标准差-误差-残差-偏差
离差、变差、方差、标准差用于测量一组数据的分散程度,或者说一个指标的波动程度。 1.离差(deviation):指的是任何一个观测值与平均值之间的差异,计算公式是观测值减去平均值。 eg: 假设我们有一组身高数据,如:160cm, 165cm, 170cm, 175cm, 180cm。我们计算这组数据的[平均值]为170cm。然后我们可以计算每个数据点与平均值之间的离差,比如第一个数据点的离差为-10cm(160-170),第二个数据点的离差为-5cm(165-170),以此类推。 **注意:离差反映了某个“个体”偏离“中央”的程度,但千万不能叫“偏差”** 2.变差(variation):指的是所有离差的平方和,也就是所有观测值与平均值之间的距离的平方的总和。 eg:上面的变差应该为 $$=(160-170)^2 + (160-170 )^2 + (160-170 )^2 + (160-170 )^2 + (160-170 )^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2$$ 注意:变差可被看作是“总的离差”,因为把所有的离差累积起来可以全面反映数据的波动情况。但正如你所见,离差有正有负,求和之后恰好为零,因此数学家只好变通一下,先平方一下(消除负号),然后再求和。 3.方差(variance, VAR):指的是变差除以观测个数,也就是离差的平方和的均值。它反映了数据的整体波动程度 eg:上面的方差应该为 $$= ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 5 \\frac{(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2}{5} 5(160-170)2+(160-170)2+(160-170)2+(160-170)2+(160-170)2$$ 注意:方差可被看作是“平均变差”,这样可以剔除数据规模的影响,更公平地比较两组数据的波动程度。 4.标准差(standard deviation, SD):指的是方差的平方根,也就是离差的平方和的均值的平方根。它也反映数据的整体波动程度。 eg:上面的方差应该为 $$= ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 + ( 160 - 170 ) 2 5 \\sqrt{\\frac{(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2+(160-170)^2}{5}} 5(160-170)2+(160-170)2+(160-170)2+(160-170)2+(160-170)2$$ 注意:方差和标准差都可以用来比较不同数据集的离散程度,但标准差更容易解释,因为它具有与原始数据相同的量纲。这意味着,如果我们有两个不同的数据集,它们的标准差可以直接用来比较它们的离散程度,而不需要担心数据的量纲不同导致的不确定性。 误差、残差、偏差,它们常被用来刻画数据的拟合程度。 ------------------------- 5.误差(error):指的是观测值与真实值之间的差异,也就是测量结果与真实情况的偏离程度。 eg:我实际身高168,由于尺子变形或者没看仔细,测出身高是164,那么这个测量就存在误差-4cm=164-168。误差包括系统误差(尺子变形)和随机误差(没看仔细)两部分。 6.残差(residual):指的是估计值与观测值之间的差异,也就是模型预测结果与实际观测结果的偏离程度。 eg:我实测身高是168,假设我们建立了一个体重与身高的线性回归模型,用体重来预测身高。当我们用这个模型预测我的身高为169时,残差为-1cm=168cm-169cm。就是“残留”下来无法解释的部分。  6.偏差(bias):指的是观测值与真实值之间的系统性偏离,或者估计值与观测值之间的系统性偏离。偏差反映的是测量或模型存在一定程度的系统误差。 eg: 假设我们要估计某个班级学生的平均身高。通过对一部分学生进行抽样调查后,我们得出平均身高为160cm。但实际上,由于我们只对一部分学生进行了调查,这个估计值可能存在偏差,即与班级所有学生的真实平均身高存在一定的偏离。这种偏差可能是由于抽样方法、样本容量等因素导致的。 通俗理解,误差反映了“你量的准不准”,残差反映了“你猜的准不准”,偏差说的是,“你量的或猜的总是偏高(或偏低)吗”
2024-07-27 12:42 by admin
42
0
热门文章
1
clashX 设置白名单,忽略本地hosts测试域名的代理设置。
2
验证性因子分析步骤以及应达到的标准
3
Spss详细图文教程——问卷信度和效度检验步骤图解
4
信度效度分析的注意事项
5
MATLAB时代的七种开源替代方案