使用R进行权变分析

本文概述

  • 现在让我们看看如何使用R编程语言执行卡方检验独立性
权变分析是一种假设检验, 用于检查两个类别变量是否独立。简而言之, 我们问一个问题:” 如果我们知道另一个变量的值, 我们可以预测一个变量的值吗?” 。如果答案是肯定的, 我们可以说所考虑的变量不是独立的。如果答案是否定的, 那么我们可以说所考虑的变量是独立的。该测试利用了列联表, 其结果称为” 列联分析” 。这也称为” 独立性卡方检验” , 因为检验统计量遵循卡方分布, 并且该检验用于检查两个类别变量是否独立。
检验的原假设是两个变量是独立的, 备选假设是两个变量不是独立的。
让我们尝试通过一个示例来理解” 偶然性分析” 或” 卡方独立性检验” 。
假设我们想知道运动的选择是否与性别无关。因此, 我们询问了一百个人和一百女性在射箭, 拳击和自行车运动中他们更喜欢参加哪种运动, 并总结了下表中列出的数据。
使用R进行权变分析

文章图片
上面的表称为观察表, 因为它包含观察到的计数。
卡方检验独立性通过将观察到的计数与预期计数进行比较而起作用。因此, 我们的下一个任务是从观察表中得出包含期望计数的期望表。如果两个分类变量是独立的, 则期望表就是我们期望的双向表。根据概率论, 我们知道如果两个事件的联合概率等于其边际概率的乘积, 则称两个事件是独立的。我们将使用此概念来计算六个单元格中每个单元格的预期计数。让我们计算第一个单元格的预期计数。首先, 我们将女性概率(100/200)与偏爱射箭的概率(45/200)相乘来计算联合概率。一旦有了联合概率(100/200 * 45/200), 如果将其乘以样本大小(200), 我们将得到第一个像元的期望计数为22.5。同样, 我们将计算剩余五个单元格的预期计数。下表是我们要查看性别和运动偏好是否独立的表。
使用R进行权变分析

文章图片
现在我们已经有了预期和观察到的计数, 接下来的任务是检查观察到的计数与预期的计数有何不同。为此, 我们必须计算一个称为卡方检验静态的检验统计量, 因为它遵循卡方分布。以下是用于计算卡方检验统计值的公式。
使用R进行权变分析

文章图片
从上面的公式中我们可以看到, 卡方检验统计量的值可以为0(当观察到的计数与预期计数之间绝对没有差异时), 但永远不能为负。这使得卡方检验独立性成为单尾检验。
使用上面的公式, 我们为示例计算卡方检验统计量的值。称为检验统计量的观察值。
使用R进行权变分析

文章图片
现在是时候决定是否拒绝原假设。我们通过将测试统计量的观察值与其临界值进行比较或通过查看p值来做出决定。如果检验统计量的观察值超过其临界值, 或者p值小于或等于显着性水平, 则我们可以拒绝原假设, 并得出结论, 两个分类变量之间存在统计学上的显着关系, 即他们不是独立的。如果我们知道显着性水平(通常为0.05)和自由度, 则可以从卡方表中获得临界值。显着性水平是拒绝真实零假设的概率。对于具有r行和c列的表, 可以通过以下公式计算自由度。
使用R进行权变分析

文章图片
因此, 对于我们的示例, 我们有2个自由度。
使用R进行权变分析

文章图片
从下表中我们可以看到, 对于显着性水平为0.05和2个自由度, 检验统计量的临界值为5.99。
由于检验统计量的观察值大于其临界值(19.798> 5.99), 因此我们可以拒绝原假设, 并得出结论, 选择运动与性别无关。
现在让我们看看如何使用R编程语言执行卡方检验独立性 使用内置函数chisq.test()非常容易执行卡方检验。
以下是观察到的表。
observed_table < - matrix(c(35, 15, 50, 10, 30, 60), nrow = 2, ncol = 3, byrow = T)rownames(observed_table) < - c('Female', 'Male')colnames(observed_table) < - c('Archery', 'Boxing', 'Cycling')observed_table

##Archery Boxing Cycling## Female351550## Male103060

为了执行测试, 我们需要将chisq.test()函数应用于观察表。
X < - chisq.test(observed_table)X

####Pearson's Chi-squared test#### data:observed_table## X-squared = 19.798, df = 2, p-value = http://www.srcmini.com/5.023e-05

从以上结果可以看出, p值小于显着性水平(0.05)。因此, 我们可以拒绝原假设, 并得出两个变量(性别和运动偏好)不是独立的结论。
如果我们想查看期望的表, 我们也可以这样做。
X$expected

##Archery Boxing Cycling## Female22.522.555## Male22.522.555

【使用R进行权变分析】希望你喜欢这篇文章。如果你想了解更多有关R的知识, 请参加srcmini的R中的统计建模(第1部分)课程。

    推荐阅读