分布式爬虫爬取知乎用户—存储篇分布式爬虫爬取知乎用户—存

数据爬下来了，需要存储起来，之前用过mysql，感觉关系型数据库不太适用于爬虫，所以这次选用nosql数据库 mongodb。
存入步骤
1.将爬取到的用户信息转成key value模式，类如如下：

people = {'urlToken': urlToken}
people['educations'] ='&&'.join(map((lambda x:'%s%s%s' % (
(x['school']['name']if x.has_key('school')else ''), (',' if x.has_key('school')and x.has_key('major')else ''),
(x['major']['name']if x.has_key('major')else ''))), data['educations'])).strip().replace("'","\\'")
people['followingCount'] = data['followingCount']# 他关注的人数
people['pinsCount'] = data['pinsCount']# 他的分享数
people['favoriteCount'] = data['favoriteCount']# 他的收藏数
people['voteupCount'] = data['voteupCount']# 他获得的赞同数
......

2.连接mongodb