R中Web抓取和解析数据 | 研究H-1b数据（1） _Web

本文概述

内容
介绍
获取数据：Web爬取和解析
清理数据
探索数据：第一步
H1B签证数据的后续步骤

本教程的目的是向你展示如何通过使用R进行网页抓取来收集有关H1B签证的数据。接下来, 你还将学习如何解析JSON对象, 以及如何存储和处理数据, 以便可以对H1B申请的大数据集进行基本的探索性数据分析(EDA)。
也许你可以学习如何最好地将自己定位为候选人或新的R代码！
(想练习仅将数据导入R吗？请尝试本教程, 以在R中导入数据。)
内容

获取数据：Web爬取和解析
- 探索页面结构
- 解析JSON对象
- 将数据合并到数据表中
清理数据
探索数据：第一步
H1B签证数据的后续步骤

介绍上周, srcmini的博客” 数据可以帮助你的H-1B签证申请” 向你展示了多年来对H-1B数据的分析结果。现在, 该动手动手, 自己分析数据, 看看还能找到什么！ Ted Kwartler将通过一系列R教程指导你完成此过程。
我在一个德克萨斯州的律师事务所里有一个朋友, 该律师事务所提供H1B签证。 H1B是美利坚合众国的非移民签证, 允许美国雇主临时雇用外国工人从事特殊职业。显然, 被接受非常困难, 因为与成千上万的申请人相比, 签证供应有限。
尽管这是轶事, 但我还是决定自己探索数据, 以期帮助合格的候选人知道美国是一个受欢迎的地方！
获取数据：Web爬取和解析 【R中Web抓取和解析数据 | 研究H-1b数据（1）】我的srcmini同事向我指出了这个网站, 它是一个简单的网站, 包含2012年至2016年的H1B数据。该网站声称将2M H1B应用程序组织到一个表中。
我决定以编程方式收集此数据(阅读：网络抓取), 因为我一生都不会复制/粘贴！
如你所见, 下图显示了网站的一部分, 显示了波士顿的H1B数据：

文章图片
本教程将使用的库包括用于解析JSON对象的jsonlite, “ 收获” HTML的rvest, pbapply(个人喜好, 因为它在基本应用函数中添加了进度条)和data.table, 这可以改善R在大型数据帧上的性能。

library(jsonlite)library(rvest)library(pbapply)library(data.table)

探索页面结构
浏览站点时, 你将意识到搜索表单会建议预填充选项。例如, 在” 城市” 字段中键入” B” 将显示以下建议的模式。
下图显示了当我键入” B” 时的预填充选项：

文章图片
这意味着你可以使用预填充作为查询站点的有效方法。
使用Chrome, 你可以重新加载, 然后右键单击以” 检查” 页面, 然后在开发人员面板中导航至” 网络” , 最后在页面上键入” B” 以加载模式。
浏览网络面板链接, 你将发现一个PHP查询, 返回类似城市的JSON对象。
目标是首先收集所有建议的城市, 然后使用该列表从H1B数据中刮取大量页面。
浏览前一个URL时, 你会注意到它以字母结尾。因此, 你可以将paste0()与URL基础, http：//h1bdata.info/cities.php？term =和字母一起使用。每个字母的值都将循环使用。字母对象是从” a” 到” z” 的内置R向量。 json.cities对象是URL的向量, 从a到z, 其中包含所有预填充建议作为JSON。

json.cities< -paste0('http://h1bdata.info/cities.php?term=', letters)

解析JSON对象
json.cities对象是R必须读取的26个链接的向量。使用lapply()或pblapply()以及fromJSON, R将解析每个JSON对象以创建all.cities。你将结果嵌套在unlist中, 因此输出是一个简单的字符串向量。使用此代码, 你可以将所有预填充城市组织到一个向量中, 以用于构建包含数据的实际网页。

all.cities< -unlist(pblapply(json.cities, fromJSON))

为了减少单个页面的加载时间, 你可以决定将两个参数(城市和年份)传递到每个网页查询中。例如, 2012年的波士顿H1B数据, 然后是2013年的波士顿, 依此类推。
创建因子组合时要使用的一个很棒的功能是expand.grid()。
在下面的代码中, 你看到传递了城市信息, all.cities, 然后使用seq()从2012年传递到2016年。该函数创建了5000多个城市年份组合。 expand.grid()以编程方式创建Boston 2012, Boston 2013, Boston 2014等, 因为每个城市和每年代表唯一的因子组合。

city.year< -expand.grid(city=all.cities, yr=seq(2012, 2016))

有些城市(例如洛杉矶)是两个必须为URL编码的单词。 url_encode()函数将” Los Angeles” 更改为Los％20Angeles以验证地址。你传入整个向量, 并且url_encode()将按行工作：

city.year$city< -urltools::url_encode(as.character(city.year$city))

最后, 再次使用paste0()函数将基本URL连接到city.year中的city和state组合。在此处查看示例链接。

all.urls< -paste0('http://h1bdata.info/index.php?em=& job=& city=', city.year[, 1], '& year=', city.year[, 2])

从页面中提取信息
完成上述步骤后, 你可以创建一个名为main的自定义函数, 以从每个页面收集数据。
这是使用rvest提供的功能的简单工作流程。
首先, URL被接受并且read_html()解析页面内容。接下来, 从所有其他HTML信息中选择页面的单个html_table。 main函数将x对象转换为data.table, 以便可以将其有效地存储在内存中。
最后, 在关闭main之前, 你可以添加Sys.sleep, 这样就不会被视为DDOS攻击。

main< -function(url.x){x< -read_html(url.x)x< -html_table(x)x< -data.table(x[[1]])return(x)Sys.sleep(5)}

我们去获取数据！
我喜欢使用进度条pblapply(), 因此可以跟踪抓取进度。
你只需在pblapply()函数中传递all.urls和main函数。 R立刻开始加载页面, 收集表并将data.table保存在该页面的内存中。每个URL依次收集并保存在内存中。

all.h1b< -pblapply(all.urls, main)

将数据合并到数据表中
！
那花了几个小时！
此时, all.h1b是数据表的列表, 每页一个。要将列表统一为一个数据表, 可以使用rbindlist。这类似于do.call(rbind, all.h1b), 但速度更快。

all.h1b< -rbindlist(all.h1b)

最后保存数据, 这样你就不必再次执行此操作。幸运的是, 我在这里保存了一份副本。

write.csv(all.h1b, 'h1b_data.csv', row.names=F)

清理数据即使你抓取了数据, 也需要一些其他步骤才能将其转换为可管理的格式。
你使用lubridate帮助组织日期。你还可以使用stringr, 它为字符串操作提供包装器。

library(lubridate)library(stringr)

尽管这是个人喜好, 但我喜欢使用scipen = 999。它不是强制性的, 但它摆脱了科学的记号。

options(scipen=999)

事实证明, 网络抓取记录捕获了2M H1B记录中的1.8M。我认为180万就足够了。因此, 让我们使用fread()加载数据：此函数类似于read.csv, 但是它是更有效的” 快速友好的文件整理器” 。

h1b.data< -fread('h1b_data.csv')

抓取的数据列名称为大写且包含空格。
因此, 按名称引用它们很麻烦, 因此你要做的第一件事就是重命名它们。
重命名列名称需要在赋值运算符(< -)的两侧都有函数。在左侧使用colnames()并传入数据框。在运算符的右侧, 你可以传入字符串向量。
在此示例中, 你首先使用原始名称, 并使用tolower()将其变为小写。在第二行中, 应用全局替换函数gsub()。
当gsub()识别出一个模式(在这种情况下为空格)时, 它将用第二个参数下划线替换所有实例。最后, 你需要告诉gsub()在代表现在小写的数据帧列的名称(h1b.data)中执行替换。

colnames(h1b.data)< -tolower(names(h1b.data))colnames(h1b.data)< -gsub(' ', '_', names(h1b.data))

探索数据时使用的第一个函数之一是tail()函数。此函数将返回底部的行。在这里, tail()将返回最后8行。
这有助于你快速查看数据形状和向量的外观。

tail(h1b.data, 8)

接下来, 我总是检查向量的类。使用网络抓取的数据, 数值或因子可以成为文本。
你会看到现在更正类可以避免以后感到沮丧！
使用apply()函数, 可以传递h1b.data, 然后传递2和函数类。由于你选择了2, R将检查每个列的类并将其返回到控制台。你可以将apply()与1结合使用, 以逐行应用函数, 但在这种情况下没有帮助。

apply(h1b.data, 2, class)

哦！
所有列均为” 字符” , 必须更正。
我将向你展示如何更改日期列之一, 然后将其他列留给你。使用tail(), 你可以检查错误分类日期的最后6行。
要更正日期, 需要将/斜杠更改为-。再次使用gsub()搜索/, 然后将其替换为-。

tail(h1b.data$submit_date)h1b.data$submit_date< -gsub('/', '-', h1b.data$submit_date)

在破折号到位的情况下, 你应用mdy()代表” 月, 日, 年” 。这是因为日期是按该顺序声明的。如果顺序不同, 你将相应地重新排列mdy字母。
为了确保正确更改了列, 请重新检查尾部并检查类。 tail()应打印与” 2016-03-11 UTC” 相似的日期, 并且向量类应为” POSIXct” 而不是” character” 。

h1b.data$submit_date< -mdy(h1b.data$submit_date)tail(h1b.data$submit_date)class(h1b.data$submit_date)

对于这种类型的分析, 最好只将日期中的月份和年份提取到新列中。在下面的代码中, 你看到声明了两个新列$ submit_month和$ submit_yr。
在lubridate中, month()函数可以应用于整个列, 以从日期中提取月份值。 year()函数类似地接受date列以创建h1b.data $ submit_yr。使用head()函数时, 现在应该看到已经创建了两个新列。

h1b.data$submit_month< -month(h1b.data$submit_date, label=T)h1b.data$submit_yr< -year(h1b.data$submit_date)head(h1b.data)

接下来, 让我们检查$ base_salary列。它在千位中有一个逗号, R认为它是一个字符, 因此必须进行更改。 gsub()再次设法删除逗号并将其替换为空字符。然后将as.numeric()应用于h1b.data $ base_salary, 以将值正式更改为数字。
你可以在第三行中使用head()检查新矢量的一部分。

h1b.data$base_salary< -gsub(', ', '', h1b.data$base_salary)h1b.data$base_salary< -as.numeric(h1b.data$base_salary)head(h1b.data$base_salary)

切割此数据的另一种方法是按状态。当你检查h1b.data $ location列时, 你会看到城市和州由逗号分隔。下面的代码使用str_split_fixed()分隔第一个逗号上的位置信息。只需传入列, 分隔字符和要返回的列数即可。结果状态对象是大矩阵, 具有与h1b.data相同的行数和2列。

state< -str_split_fixed(h1b.data$location, ', ', 2)

代码列的后两行将单独的状态向量$ city和$ state绑定到h1b.data。矢量不是完美的, 因为拼写可能会有所不同, 例如” Winston Salem” 和” Winston-Salem” 。总体而言, 此方法对于简单的EDA来说已经足够好, 但请记住, 在其他分析中可能需要一些术语汇总。

h1b.data$city< -state[, 1]h1b.data$state< -state[, 2]

探索数据：第一步如果你正在申请H1B签证, 你想知道哪些州最能增加我被录取的机会。 table()函数用于对分类变量进行计数, 可轻松应用于h1b.data $ state。在第二行中, 你可以创建一个小的数据框来捕获状态名称和已记录的H1B数据。

state.tally< -table(h1b.data$state)state.tally< -data.frame(state=names(state.tally), h1b=as.vector(state.tally))

使用state.tally和barplot()将按状态创建H1B值的基本条形图。第二个参数name.arg声明条形标签, 而las = 3告诉R垂直放置标签。你可以从逗号拆分中看到一些草率的位置, 但要点很明确……H1B申请人可能在CA, NJ, NY或TX。

barplot(state.tally$h1b, names.arg = names(table(h1b.data$state)), las=3)

文章图片
你会看到2012年至2016年的州H1B签证总数。
接下来, 让我们尝试了解H1B签证与外界事实之间的关系。为简单起见, R有一个内置的数据集, 称为state.x77。这是一个包含50行的矩阵, 每个州1行, 并且提供了诸如1977年美国人口普查中的人口和预期寿命之类的事实。
提示：在你自己的分析中使用更新的数据源。
目前, 使用state.x77是一个很好的例子。使用head()检查此内置数据集。

head(state.x77)

让我们将这些信息与state.tally数据合并到更大的数据框中, 以了解关系。为此, 创建一个state.data数据框, 其中包含状态缩写, state.abb和旧的1977年人口普查数据。然后调用并传递state.tally和state.data的合并。
你可以显式声明state列作为要加入的向量。通过索引第15到20行来检查第三行中数据帧的一部分。

state.data< -data.frame(state=state.abb, state.x77)state.data< -merge(state.tally, state.data, by='state')state.data[15:20, ]

EDA的基本功能是：将打印两个变量之间的相关性。
请记住, 相关性的范围是-1到1：0, 这意味着变量没有相关性, 并且可能不相关。接近1的数字表示值与R编程和收入一样正相关(希望如此)。负数表示关系朝相反的方向移动, 例如R编程和社交生活！
此代码将cor应用于1977年的州人口和当前的H1B记录。请记住, 该代码旨在说明尽管存在时间上的不匹配, 但如何执行分析。你可以更改$ Population以引用数据框中的另一个向量。

cor(state.data$Population, state.data$h1b)

研究变量关系的另一种方法是使用散点图, 尤其是散点图矩阵。使用pairs()快速绘制散点图矩阵。下面的代码使用公式定义关系。每列都单独声明, 中间有一个加号。 data参数接受数据框, 并且main仅声明图标题。

pairs(~ h1b + Population + Income, data = http://www.srcmini.com/state.data, main='h1b relationships')

文章图片
你会看到此散点图矩阵将H1B计数可视化为状态” 人口和收入” 。
你可以观察人口与h1b之间的关系。这在直觉上是有道理的, 因为人口更多的州将有更多的工作机会需要H1B签证。
要从矩阵” 放大” 为单个图, 只需调用plot()并传入两个变量即可。

plot(state.data$Income, state.data$h1b, main = 'Income to H1B')

H1B签证数据的后续步骤你才刚刚开始我们的H1B签证探索！这个数据集非常丰富, 在下一篇文章中, 你将探索薪水数据, 摆脱异常值, 并制作更具吸引力的ggplot2视觉效果。
你还将通过逐步探索H1B地位以及顶级雇主来建立这些EDA概念。我已经向你展示的很酷的视觉效果之一叫做箱形图, 它使用以下代码显示了按H1B签证状态划分的工资分配：

ggplot(h1b.data) +geom_boxplot(aes(factor(case_status), base_salary, fill=as.factor(case_status))) +ylim(0, 100000) +theme_gdocs() +scale_fill_gdocs() +theme(axis.text.x=element_blank())