DoraHacks|DoraHacks 武汉二等奖复盘 DoraHacks武汉二等奖复盘

Dorahacks 武汉华科安步咖啡 2017/10/22
首先能够参与这样一个盛大互联网hackaton活动本身就极具吸引力，连续工作24h，产出对现实问题的解决方案，本来抱着试一试的态度去参加，但没想到最后能在16组队伍中得到二等奖，收获很多，复盘。
主要项目人员有产品组两人、爬虫组两人、算法组两人。
项目为爬取微博用户粉丝，建立用户画像。
通过：爬取数据-预处理-建立样本集-建立某标签的测试集-特征提取-筛选变量-使用函数-得到结果。
项目成果：建立假粉测试集与真粉测试集，对关晓彤粉丝分析得到其假粉数量大约在百分之5%，对项目应用场景进行了合理推广。
【DoraHacks|DoraHacks 武汉二等奖复盘】一开始对于项目的设想是做互联网招聘垂直领域聚合平台，结合简历插件，以及运营方案。
问题：整个项目完整过程并没有理清思路，以及这三者的关联，做产品的hackton最好以前就有PPT与整体思路。
后来这个项目没有被团队采纳，我觉得是一个正确的决策，一来这个的实现难度不一般，也不太符合比赛geek的气质，二来团队没有前端，所以最优选择是放弃。
后续团队采取了分析大V用户画像的idea，本身这个项目与dorahacks的气质也最相衬。
在一个技术驱动、算法为主的团队里做PM，确实工作量上确实与常接触的用户需求方面的产品工作不同，我的工作内容有：

寻找对标产品。分析市场现状。考虑商业与变现方面。将抽象需求转化为具象的实现方法。提供技术解决方案的建议。对技术应用场景进行考虑。

在整个hackton过程，一直处于兴奋的状态24h没有睡觉也依然没有困意。前期主要做对于爬取数据的分类，在整个微博中能爬取哪些数据？爬取哪些数据是有意义的？将抽象的爬取用户信息变成爬取用户的哪几个数据。后期想通过人工做一个分类，限定某些数据量大小，这也取决于对于我们想筛选人群的定义。后来发现依靠经验以及人工的分类低效而不准确。改变想法后利用技术实现，有两个方案：将大V粉丝关注的其他ID与已爬取的某垂直领域大V的ID进行对比，大于n个贴上相应标签，通过机器学习发现特定粉丝的模式，再进行筛选。在技术实现沟通后，人工采集了真粉与假粉的账号，建立样本集，用于机器学习与某大V粉丝对比。由于开发时间以及爬取数据时间的问题，第一项想法没有实现，但是后一种方法同样可行且可信任，通过使用不同的样本集可以利用这一套技术的方法，实现多种应用场景。
微博的开放性越来越差以及越来越不友好，导致爬数据时出现了没有意识到的问题。粉丝列表只能看前20页，虽然前20页可以不断更新粉丝列表，但是并不明确更新粉丝列表排名的规则，可能是活跃粉丝被排在前面，导致样本集的数据可能是被污染的。(尤其是目前样本量较小。）以及Python 2的编码问题。
在进行一个项目前先过流程与最小可行化产品，以此作为前期调研可以在后面传递需求时沟通的更好。
工作量安排上一个从零到一的项目难免出现一部分人工作另一部分人清闲。
对于需求的传递，一定要跟紧技术人员的开发进度，随时沟通需求，确认需求的变更。
在讨论时涉及的数据量太大，想做标签是是一个模糊的需求，需要进一步明确与量化，分词、语义分析等方法难度明显。
在整个项目过程中，一开始宏大的设想与定位，之后抓取粉丝发现的问题而焦虑。在缺乏灵感时找其他同学聊天得到假粉样本集，得知无法贴标签后想去扩展技术应用价值，刚刚开始爬数据时其实还没想清楚如何利用数据，后来去不断地和算法同学聊，讨论明确了方法。
感觉产品懂技术甚至本身会技术还是很有必要的，在沟通需求与进度跟踪还是很重要的。
一开始有些方向不清晰，后来发现技术的扩展性与想象空间都很大，再后来遇到问题停滞不前，再到深夜寄希望于数据处理。有过失去信心，没有定位的时候，也有焦虑的时候，不断地身陷自我怀疑，甚至PPT答辩时有过关于讨论技术细节的风格是不是合适的焦虑，上台的演讲风格有没有清楚传达。后来发现其实坚定初心保持信心才是合适的。我自己的缺点也在比赛中有体现，演讲的没有重点与语速过快，本身缺乏leadership，对于现实与理想有不同，无法实现确实是需要接受。
作为一个产品，从里面收益颇丰，不过最重要的是有一群极其靠谱的技术小伙伴，大家都很有激情，与探索的实力，让我体验到一种make things happen的感觉，主办方的赞助商闪银主动联系我们，说期待有技术合作，很感谢主办方，也希望技术同学有更多收获。