本文概述
- 因子级别
- 总结一个因素
- 有序因素
因子级别初次获得数据集时, 你经常会注意到它包含具有特定因子级别的因子。但是, 有时出于清晰或其他原因, 你可能希望更改这些级别的名称。 R允许你使用level()函数执行此操作:
levels(factor_vector) <
- c("name1", "name2", ...)
一个很好的例证是调查提供给你的原始数据。每个问卷的一个常见问题是受访者的性别。在这里, 为简单起见, 仅记录了两个类别:” M” 和” F” 。 (通常, 调查数据需要更多类别;无论哪种方式, 你都可以使用一个因素来存储分类数据。)
survey_vector <
- c("M", "F", "F", "M", "M")
如果使用笔和纸收集数据, 则使用缩写” M” 和” F” 记录性别可能会很方便, 但是在分析数据时会引起混淆。此时, 为了清楚起见, 你通常会希望将因子级别更改为” 男性” 和” 女性” , 而不是” M” 和” F” 。
注意:分配级别的顺序很重要。如果键入level(factor_survey_vector), 你将看到它输出[1]” F” ” M” 。如果在创建矢量时未指定因子的级别, R将自动按字母顺序分配它们。要正确地将” F” 映射到” 女性” , 将” M” 映射到” 男性” , 级别应按此顺序设置为c(“ 女性” , “ 男性” )。
使用说明
- 签出从Survey_vector构建因子向量的代码。你应该在下一条指令中使用factor_survey_vector。
- 将factor_survey_vector的因子级别更改为c(” Female” , ” Male” )。在此注意矢量元素的顺序。
summary(my_var)
回到我们的调查, 你想知道你的研究中有多少” 男性” 反应, 以及多少” 女性” 反应。 summary()函数为你提供了该问题的答案。
使用说明
询问survey_vector和factor_survey_vector的summary()。解释两个向量的结果。在这种情况下, 它们都同样有用吗?
有序因素由于” 男性” 和” 女性” 是无序(或标称)因子级别, 因此R返回警告消息, 告诉你” 大于” 运算符没有意义。如前所述, R对这些因素的级别附加相等的值。
但这并非总是如此!有时, 你还将处理在类别之间确实具有自然顺序的因素。如果是这种情况, 我们必须确保将这些信息传递给R …
假设你正在领导由五个数据分析师组成的研究团队, 并且你想评估他们的绩效。为此, 你要跟踪他们的速度, 将每个分析人员评估为” 慢” , “ 中” 或” 快速” , 然后将结果保存在speed_vector中。
使用说明第一步, 为speed_vector分配一个具有5个条目的矢量, 每个分析师一个。每个条目应为” 慢” , “ 中” 或” 快速” 。使用以下列表:
- 分析师1是中级,
- 分析师2的速度很慢,
- 分析师3的速度很慢,
- 分析师4为中级
- 分析师5很快。
【R中的因子级别】如果你想从本课程中学习更多信息, 请点击这里。
推荐阅读
- Win 8系统不激活会怎样?Win 8不激活可以运用多久?
- 使用正则表达式清除字符串
- 深入研究不平衡数据
- 使用R进行权变分析
- 使用Python的潜在语义分析
- R中的子集数据集
- R中的Bootstrap数据分析
- 机器学习黑色星期五数据集分析
- R中的ggplot的分面