方差分析

魔法师LQ

方差分析引论

相关术语

  • 定义1:检验多个总体均值是否相等的统计方法,成为方差分析(analysis of variance, ANOVA)。也叫F检验(F test)。
    • 对象:分类型自变量对数值型自变量的影响。
    • 作用:自变量之间有没有关系,关系的强度如何。显著性。
    • 举例1:Head Movement Example: neural talking, expressive movement, random head movement多组实验之间评价,需要用到方差分析。average , one-way ANOVA(F统计量(k-1, n-k),P),说明有显著性差异,但是没有说明哪个好。Post-hoc analysis(tukey HSD)处理说明那个更好。
    • 举例2:treatments measurement

  • 定义2:所要检测的对象称为因素或者因子(factor)
  • 定义3:因素的不同表现称为水平或者处理(treatment)
  • 定义4:每个因子水平下得到的样本数据称为观测值。

基本思想和原理

误差分解

方差分析,虽然感兴趣的是均值,但是在判断均值之间是否有差异要借助方差。通过数据误差来源的分析来判断不同总体之间的均值是否相等。
  • 定义5:组内误差(within groups),来自水平内部的数据误差。组内误差只包含随机误差。
  • 定义6:来自不同水平之间的数据误差成为组建误差(between groups)组间误差既包含随机误差也包含系统误差。
  • 定义7:全部数据误差大小的平方和称为总平方和(sum of squares for total, SST)
  • 定义8:组内误差大小平方和成为组内平方和(sum of suqares for error(within), SSE/SSw)
  • 定义9:组间平方和反映组间误差的平方和(sum of squares for factor A(between), SSA/SSb)

误差分析

  • 比较系统误差和随机误差两类误差(具体通过方差比),以检验均值是否相等。(假设$H_0$:各族总体均值相等)。

单因素方差分析

双因素方差分析

假设条件

  • 独立
  • 正态分布
  • variance

无交互双因素方差分析

有交互双因素方差分析

随机误差平方和的一种计算方法:

还有一种计算方法:

其中#A#B分别代表因素A和因素B的个数。#rep表示重复试验的次数。

Z-, t-, F-统计量

  • 3个以上,F检验
  • 1个,Z,$\mu$已知,$Z=\frac{x_i-\mu}{\sigma /\sqrt{n}}$
  • t统计
    • paried two-sample

合并方差和非合并方差

任务sx和sy相等,合并方差作为总体方差。

比较T统计量和F统计量之间的关系

$F=t^2$

后处理(Post-Hoc Test)

大纲

  • 找出来哪个最好。
  • 找出来一系列的t-test进行检验(两两作比较)。
  • 问题:type-I error inflation。$\alpha$
  • 解决:每次显著性水平控制在一定很小的范围内, or ,将几个组组合在一起比较显著性水平。
    • Bonferroni
    • Tukey Test
    • Scheffe’s Test

Bonferroni

Tukey

Scheffe

Holm and Hochberg

  • 从小到大排序,越小越有可能是显著的。

  • $p1, p2, \dots , pn$

若在p2处停,则表明p1,p2组和其他剩余的组之间有显著性差异。

下集预告

  • 考虑多个因素之间的关系