学生t检验
由来
学生 t 检验是威廉·戈塞为了观测酿酒品质于1908年所提出的,“学生”则是他的笔名。 基于克劳德·健力士(Claude Guinness)聘用从牛津大学和剑桥大学出来的最好的毕业生, 以将生物化学及统计学应用到健力士工业流程的创新政策,戈斯特受雇于都柏林的健力士酿酒厂担任统计学家。戈斯特提出了 t 检验以降低啤酒质量监控的成本。戈斯特于1908年在《Biometrika》期刊上公布t检验,但因其老板认为其为商业机密而被迫使用笔名。实际上,其他统计学家是知道戈斯特真实身份的。
今日,它更常被应用于小样本判断的置信度。
应用
最常用t检验的情况有:
单样本检验:检验一个正态分布的总体的均值是否在满足零假设的值之内,例如检验一群人的身高的平均是否符合170公分。
双样本检验:其零假设为两个正态分布的总体的均值之差为某实数,例如检验二群人的身高之平均是否相等。这一检验通常被称为学生t检验。但更为严格地说,只有两个总体的方差是相等的情况下,才称为学生t检验;否则,有时被称为Welch检验。以上谈到的检验一般被称作“未配对”或“独立样本”t检验,我们特别是在两个被检验的样本没有重叠部分时用到这种检验方式。
“配对”或者“重复测量”t检验:检验同一统计量的两次测量值之间的差异是否为零。举例来说,我们测量一位病人接受治疗前和治疗后的肿瘤尺寸大小。如果治疗是有效的,我们可以推定多数病人接受治疗后,肿瘤尺寸变小了。
检验一条回归线的斜率是否显著不为零。
前提假设
大多数的 t 检定之统计量具有 t = Z / k 的形式,其中 Z 与 k 是已知资料的函数。 Z 通常被设计成对于对立假说有关的形式,而 k 是一个尺度参数使 t 服从于 t 分布。以单样本 t 检验为例, Z = X ¯ ¯ --> / ( σ σ --> / n ) {\displaystyle Z={\bar {X}}/(\sigma /{\sqrt {n}})} ,其中 X ¯ ¯ --> {\displaystyle {\bar {X}}} 为样本平均数, n {\displaystyle n} 为样本数, σ σ --> {\displaystyle \标准差ma } 为总体标准差。至于 k 在单样本 t 检验中为 σ σ --> ^ ^ --> / σ σ --> {\displaystyle {\hat {\sigma }}/\sigma } ,其中 σ σ --> ^ ^ --> {\displaystyle {\hat {\sigma }}} 为样本的标准偏差。在符合零假说的条件下, t 检定有以下前题:
Z 服从标准正态分布
( n - 1) k 服从自由度( n - 1)的卡方分布
Z 与 k 互相独立
单样本 t 检验
检验零假说为一群来自常态分配独立样本 x i 之母体期望值 μ 为 μ 0 可利用以下统计量
其中 i = 1 … … --> n {\displaystyle i=1\ldots n} , x ¯ ¯ --> = ∑ ∑ --> i = 1 n x i n {\displaystyle {\overline {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}} 为样本平均数, s = ∑ ∑ --> i = 1 n ( x i − − --> x ¯ ¯ --> ) 2 n − − --> 1 {\displaystyle s={\sqrt {\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}}} 为样本标准偏差, n 为样本数。该统计量 t 在零假说: μ = μ 0 为真的条件下服从自由度为 n − 1的t分布。
配对样本 t 检验
配对样本 t 检验可视为单样本 t 检验的扩展,不过检验的对象由一群来自常态分配独立样本更改为二群配对样本之观测值之差。
若二群配对样本 x 1 i 与 x 2 i 之差为 d i = x 1 i − x 2 i 独立且来自常态分配,则 d i 之母体期望值 μ 是否为 μ 0 可利用以下统计量
其中 i = 1 … … --> n {\displaystyle i=1\ldots n} , d ¯ ¯ --> = ∑ ∑ --> i = 1 n d i n {\displaystyle {\overline {d}}={\frac {\sum _{i=1}^{n}d_{i}}{n}}} 为配对样本差值之平均数, s d = ∑ ∑ --> i = 1 n ( d i − − --> d ¯ ¯ --> ) 2 n − − --> 1 {\displaystyle s_{d}={\sqrt {\frac {\sum _{i=1}^{n}(d_{i}-{\overline {d}})^{2}}{n-1}}}} 为配对样本差值之标准偏差, n 为配对样本数。该统计量 t 在零假说: μ = μ 0 为真的条件下服从自由度为 n − 1的t分布。
独立双样本 t 检验
样本数及变异数相等
若二群独立样本 x 1 i 与 x 2 i 具有相同之样本数 n ,并且彼此独立及来自二个变异数相等的常态分配,则二群母体之期望值差 μ 1 - μ 2 是否为 μ 0 可利用以下统计量
其中 i = 1 … … --> n {\displaystyle i=1\ldots n} , x ¯ ¯ --> 1 = ( ∑ ∑ --> i = 1 n x 1 i ) / n {\displaystyle {\overline {x}}_{1}=(\sum _{i=1}^{n}x_{1i})/n} 及 x ¯ ¯ --> 2 = ( ∑ ∑ --> i = 1 n x 2 i ) / n {\displaystyle {\overline {x}}_{2}=(\sum _{i=1}^{n}x_{2i})/n} 为二群样本各自的平均数, s p 2 = ( ∑ ∑ --> i = 1 n ( x 1 i − − --> x ¯ ¯ --> 1 ) 2 + ∑ ∑ --> i = 1 n ( x 2 i − − --> x ¯ ¯ --> 2 ) 2 ) / ( 2 n − − --> 2 ) {\displaystyle s_{p}^{2}=(\sum _{i=1}^{n}(x_{1i}-{\overline {x}}_{1})^{2}+\sum _{i=1}^{n}(x_{2i}-{\overline {x}}_{2})^{2})/(2n-2)} 为样本之共同变异数。该统计量 t 在零假说: μ 1 - μ 2 = μ 0 为真的条件下服从自由度为2 n − 2的t分布。
样本数不相等但变异数相等
若二群独立样本 x 1 i 与 x 2 j 具有不相同之样本数 n 1 与 n 2 ,并且彼此独立及来自二个变异数相等的常态分配,则二群母体之期望值之差 μ 1 - μ 2 是否为 μ 0 可利用以下统计量
其中 i = 1 … … --> n 1 {\displaystyle i=1\ldots n_{1}} ,其中 j = 1 … … --> n 2 {\displaystyle j=1\ldots n_{2}} , x ¯ ¯ --> 1 = ( ∑ ∑ --> i = 1 n x 1 i ) / n {\displaystyle {\overline {x}}_{1}=(\sum _{i=1}^{n}x_{1i})/n} 及 x ¯ ¯ --> 2 = ( ∑ ∑ --> i = 1 n x 2 i ) / n {\displaystyle {\overline {x}}_{2}=(\sum _{i=1}^{n}x_{2i})/n} 为二群样本各自的平均数, s p 2 = ( ∑ ∑ --> i = 1 n ( x 1 i − − --> x ¯ ¯ --> 1 ) 2 + ∑ ∑ --> j = 1 n ( x 2 j − − --> x ¯ ¯ --> 2 ) 2 ) / ( n 1 + n 2 − − --> 2 ) {\displaystyle s_{p}^{2}=(\sum _{i=1}^{n}(x_{1i}-{\overline {x}}_{1})^{2}+\sum _{j=1}^{n}(x_{2j}-{\overline {x}}_{2})^{2})/(n_{1}+n_{2}-2)} 为二群样本共同之变异数。该统计量 t 在零假说: μ 1 - μ 2 = μ 0 为真的条件下服从自由度为 n 1 + n 2 − 2的t分布。
变异数皆不相等
若二群独立样本 x 1 i 与 x 2 j 具有相等或不相同之样本数 n 1 与 n 2 ,并且彼此独立及来自二个变异数不相等的常态分配,则二群母体之期望值之差 μ 1 - μ 2 是否为 μ 0 可利用以下统计量
其中 i = 1 … … --> n 1 {\displaystyle i=1\ldots n_{1}} ,其中 j = 1 … … --> n 2 {\displaystyle j=1\ldots n_{2}} , x ¯ ¯ --> 1 = ( ∑ ∑ --> i = 1 n 1 x 1 i ) / n 1 {\displaystyle {\overline {x}}_{1}=(\sum _{i=1}^{n_{1}}x_{1i})/n_{1}} 及 x ¯ ¯ --> 2 = ( ∑ ∑ --> j = 1 n 2 x 2 j ) / n {\displaystyle {\overline {x}}_{2}=(\sum _{j=1}^{n_{2}}x_{2j})/n} 为二群样本各自的平均数, s 1 2 = ( ∑ ∑ --> i = 1 n ( x 1 i − − --> x ¯ ¯ --> 1 ) 2 ) / ( n 1 − − --> 1 ) {\displaystyle s_{1}^{2}=(\sum _{i=1}^{n}(x_{1i}-{\overline {x}}_{1})^{2})/(n_{1}-1)} 及 s 2 2 = ( ∑ ∑ --> j = 1 n ( x 2 j − − --> x ¯ ¯ --> 2 ) 2 ) / ( n 2 − − --> 1 ) {\displaystyle s_{2}^{2}=(\sum _{j=1}^{n}(x_{2j}-{\overline {x}}_{2})^{2})/(n_{2}-1)} 分别为二群样本之变异数。该统计量 t 在零假说: μ 1 - μ 2 = μ 0 为真的条件下服从自由度为
之t分布。这种方法又常称为Welch检验。
简单线性回归之斜率
在简单线性回归的模型
其中 x i , i = 1, ..., n 为已知, α 与 β 为未知系数, ε i 为残差独立且服从期望值0且变异数 σ 未知的正态分布, y i , i = 1, ..., n 为观测值。我们可以检验回归系数(在此例即为回归式之斜率) β 是否相等于特定的 β 0 (通常使 β 0 = 0以检验 x i 对 y i 是否有关联)。
令 α α --> ^ ^ --> {\displaystyle {\widehat {\alpha }}} 与 β β --> ^ ^ --> {\displaystyle {\widehat {\beta }}} 为最小平方法之估计值, S E α α --> ^ ^ --> {\displaystyle SE_{\widehat {\alpha }}} 与 S E β β --> ^ ^ --> {\displaystyle SE_{\widehat {\beta }}} 为最小平方法估计值之标准误差,则
在零假设为β = β 0 的情况下服从自由度为 n − 2之t分布,其中
由于 ε ε --> ^ ^ --> i = y i − − --> y ^ ^ --> i = y i − − --> ( α α --> ^ ^ --> + β β --> ^ ^ --> x i ) {\displaystyle {\widehat {\varepsilon }}_{i}=y_{i}-{\widehat {y}}_{i}=y_{i}-({\widehat {\alpha }}+{\widehat {\beta }}x_{i})} 为残差(即估计误差),而 SSR = ∑ ∑ --> i = 1 n ε ε --> ^ ^ --> i 2 {\displaystyle {\text{SSR}}=\sum _{i=1}^{n}{\widehat {\varepsilon }}_{i}^{\;2}} 为残差之离均平方和,我们可改写 t 为
电脑软件
大多数的试算表软件及统计软件,诸如QtiPlot、OpenOffice.org Calc、LibreOffice Calc、Microsoft Excel、SAS、SPSS、Stata、DAP、gretl、R、Python ([1])、PSPP、Minitab等,都可以进行 t 检验之运算。
参考文献
免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。
- 有价值
- 一般般
- 没价值