- 定义
-
“减均值方差”可能是指减去均值后的方差。设一组数据为(x_1,x_2,\cdots,x_n),其均值为(\overline{x}=\frac{1}{n}\sum_{i = 1}^{n}x_i)。那么这组数据减去均值后得到新的数据(y_i=x_i - \overline{x})((i = 1,2,\cdots,n)),新数据(y_i)的方差为(Var(y)=\frac{1}{n - 1}\sum_{i = 1}^{n}(y_i - \overline{y})^2),由于(\overline{y} = 0)(因为(y_i)是由(x_i)减去均值得到的),所以(Var(y)=\frac{1}{n - 1}\sum_{i = 1}^{n}y_i^2=\frac{1}{n - 1}\sum_{i = 1}^{n}(x_i - \overline{x})^2),这其实就是样本方差的计算公式。
-
作用原理
- 数据中心化:减去均值的操作实际上是将数据进行中心化处理。这样做的好处是可以使数据的分布以原点为中心(如果是多元数据,则是以超平面的原点为中心),方便后续的分析和处理。例如,在主成分分析(PCA)中,第一步通常就是将数据进行中心化,也就是减去均值,这样可以使得数据的协方差矩阵能够更准确地反映数据的变化情况。
-
方差的意义变化:减去均值后的方差主要衡量的是数据相对于均值的离散程度。它不受数据平移(即加上或减去一个常数,这里是减去均值)的影响,只与数据的相对分散程度有关。例如,有两组数据(A={1,3,5})和(B={ - 1,1,3}),(A)组数据的均值是(3),(B)组数据的均值是(1)。(A)组数据减去均值后得到({ - 2,0,2}),方差为(\frac{1}{2}[( - 2)^2+0^2+2^2]=4);(B)组数据减去均值后得到({ - 2,0,2}),方差同样为(4)。这说明两组数据虽然均值不同,但相对于各自均值的离散程度是相同的。
-
应用场景
- 数据分析与统计:在很多统计分析方法中都会用到。比如在计算数据的标准差(标准差是方差的平方根)来描述数据的波动情况时,通常是先计算减去均值后的方差。在比较不同数据集的离散程度或者对数据进行标准化处理(例如将数据转化为标准正态分布)时,也需要先减去均值来计算方差。
- 机器学习:在数据预处理阶段,对数据进行归一化或标准化操作。例如,在使用神经网络处理数据时,为了加快训练速度和提高模型的稳定性,常常会对输入数据进行标准化,其中就包括减去均值和除以标准差(这涉及到方差)的操作。这样可以使得不同特征之间具有可比性,避免某些特征因为数值范围过大而对模型训练产生主导作用。
减均值方差
评论
405 views