dplyr包

R包 hadley大神之作, 速度快,简洁,链式操作

  1. 数据集类型转换
    tbl_df()
    在使用dplyr处理前,建议将数据集转换为tbl对象
  2. 行筛选
    filter() slice()按指定逻辑条件筛选出符合要求的子集合,支持条件组合
    slice(data,2L) 等价于 filter(data,row_number()==2L)
    filter(data, condition)
  3. 排序
    arrange() 默认为升序排列 desc()
    arrange(data,col1,col2,...)
    arrange(data,desc(col))
  4. 变量选择
    select() 用列名来选择子集合
    筛选变量特殊方式 start_with, end_with, contains, matches, one_of, num_range, everything
  5. 重命名
    rename()
  6. 变形
    对已有列进行运算后添加为新列
    mutate()新结果+老结果
    transmute() 新结果
  7. 去重
    distinct()
  8. 汇总
    summarise()
    mean, sd, max, min, n数, n_distinct重后行数,first last
  9. 采样
    sample_n()随机抽取指定数目的样本
    sample_frac()随机抽取指定百分比的样本
    默认无放回抽取,replacement=TRUE 为可放回抽样
  10. 分组
    group_by()
  11. 连接join
    inner_join(table1,table2,by = , )
    left_join()
    right_join()
    full_join()
    semi_join()
    anti_join()
  12. 集合操作set
    intersect(x,y) 交集
    union(x,y) 并集, 去重
    union_all(x,y) 并集,不去重
    setdiff(x,y) 差集
    setequal(x,y) 判断是否相等
  13. 条件语句
    if_else(condition, true, false)
  14. case when
    【dplyr包】case_when(condition1~result1,
    condition2~result2)

    推荐阅读