用于预测性社交网络分析的数据挖掘

本文概述

  • 选举
  • 数据挖掘和提取Twitter趋势主题数据
  • 社交网络分析简介
  • 建立网络
  • 网络拓扑结构
  • 使用Twitter趋势主题数据预测选举结果
  • 结果与结论
自人们开始互动以来, 就已经存在一种或多种形式的社交网络。确实, 将两个或多个人放在一起, 你便拥有了社交网络的基础。因此, 毫不奇怪, 在当今的互联网无处不在的世界中, 在线社交网络已变得无处不在。
在这个在线社交网络世界中, 过去十年特别引人入胜的现象是Twitter的爆炸式增长, 通常被称为” Internet的SMS” 。 Twitter成立于2006年, 迅速在全球范围内普及, 并已成为世界上访问量最大的十个网站之一。截至2015年5月, Twitter拥有3.02亿活跃用户, 每天累计产生5亿条推文。而且这些数字还在不断增长。
鉴于海量的社交媒体数据量巨大, 分析人员已经认识到Twitter是用于数据挖掘, 社交网络分析以及用于感测民意趋势以及对各种政治和政治支持(或反对)的浪潮的虚拟信息宝库。社会倡议。数据科学公司发现Twitter趋势主题越来越有用, 可以作为衡量公众舆论的有价值的代理。
用于预测性社交网络分析的数据挖掘

文章图片
本文介绍了我用于概念验证的技术, 该技术有效地分析了Twitter趋势主题, 以作为示例测试案例预测2014年巴西总统大选的区域投票模式。
选举 2014年10月5日, 巴西举行了总统大选。没有候选人获得超过50%的选票, 因此, 第二次决赛选举于10月26日举行。
【用于预测性社交网络分析的数据挖掘】在第一轮中, 迪尔玛·罗塞夫(Dilma Rousseff)(Partido dos Trabalhadores)赢得了41.6%的选票, 领先于埃西·内维斯(AécioNeves)(巴西社会民主主义党)和33.6%的玛丽娜·席尔瓦(Marina Silva)(21.3%)。 10月26日, 罗塞夫(Rousseff)和尼维斯(Neves)争夺了径流, 以微弱优势再次当选罗塞夫(51.6%)至内夫斯(Neves)的48.4%。本文中的分析专门涉及10月26日的径流选举。
特拉帕哈多雷斯党(PT)是巴西最大的政党之一。它是现任和前任总统迪尔玛·鲁塞夫(Dilma Roussef)和路易斯·伊纳西奥·卢拉·达席尔瓦(Luis Inacio Lula da Silva)的政党。巴西社会民主党(PSDB)是前总统费尔南多·恩里克·卡多佐(Fernando Henrique Cardoso)的政党。
数据挖掘和提取Twitter趋势主题数据 我通过提取通过Twitter API提供数据的14个巴西城市的Twitter趋势主题数据来开始社交媒体数据挖掘, 这些巴西城市分别是:巴西利亚, 贝伦, 贝洛奥里藏特, 库里蒂巴, 阿雷格里港, 累西腓, 里约热内卢, 萨尔瓦多, 圣保罗保罗, 坎皮纳斯, 福塔莱萨, 戈亚尼亚, 马瑙斯和圣路易斯。
我查询了Twitter REST API, 以每20分钟为间隔(在Twitter对其API进行的一些限制限制下)获得了这14个城市的十大Twitter趋势主题。通过指定Yahoo!将查询限制在这14个城市中。 GeoPlanet WOEID(地球上的ID)。
对于这一概念验证, 我使用Python和Twitter库(统称为” twitter” )获取了径流选举当天(10月26日)以及前两天(10月26日)的所有社交网络数据。 24日和25日)。每天, 我都会执行约70个不同的查询, 以帮助确定即时趋势主题。
以下是响应每个查询而返回的JSON对象的示例(此示例基于10月26日上午12:40:00的数据查询, 仅显示Belo Horizo??nte的数据)。
[{"created_at": "2014-10-26T02:32:59Z", "trends": [{"url": "http://twitter.com/search?q=%23GolpeNoJN", "name": "#GolpeNoJN", "query": "%23GolpeNoJN", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23SomosTodosDilma", "name": "#SomosTodosDilma", "query": "%23SomosTodosDilma", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23EAecio45Confirma", "name": "#EAecio45Confirma", "query": "%23EAecio45Confirma", "promoted_content": null}, {"url": "http://twitter.com/search?q=Uilson", "name": "Uilson", "query": "Uilson", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Lucas+Silva%22", "name": "Lucas Silva", "query": "%22Lucas+Silva%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Marcelo+Oliveira%22", "name": "Marcelo Oliveira", "query": "%22Marcelo+Oliveira%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Cruzeiro", "name": "Cruzeiro", "query": "Cruzeiro", "promoted_content": null}, {"url": "http://twitter.com/search?q=Tupi", "name": "Tupi", "query": "Tupi", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22", "name": "Real x Bar\u00e7a", "query": "%22Real+x+Bar%C3%A7a%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Wanessa", "name": "Wanessa", "query": "Wanessa", "promoted_content": null} ], "as_of": "2014-10-26T02:40:03Z", "locations": [{"name": "Belo Horizonte", "woeid": 455821}] }]

社交网络分析简介 社交网络理论是对人, 组织或团体如何与网络中其他人进行交互的研究。社交网络有三种主要类型:
  • 以自我为中心的网络与单个节点或个人(例如你和你的所有亲朋好友)相连。
  • 以社会为中心的网络默认为封闭网络。这种网络的两个常用示例是教室里的孩子或组织内的工人。
  • 开放系统网络是边界线没有明确定义的网络, 这通常使这类网络最难研究。我们在本文中分析的社会政治网络类型是开放系统网络的一个示例。
社交网络被认为是复杂的网络, 因为它们显示出非平凡的拓扑特征, 其元素之间的连接模式既不是纯规则的也不是纯随机的。
社交网络分析检查了社交实体之间关系的结构。这些实体通常是人, 但也可能是社会团体, 政治组织, 金融网络, 社区居民, 国家公民等。网络的实证研究在社会科学中发挥了中心作用, 许多用于研究网络的数学和统计工具最早是在社会学中开发的。
建立网络 为了使用Twitter趋势主题创建网络, 我定义了以下规则:
  • 每个城市都是网络中的一个顶点(即节点)。
  • 如果两个城市之间至少有一个共同的趋势主题, 那么这两个城市之间就存在一条优势(即联系)。
  • 根据这两个城市之间共有的趋势主题的数量对每个边缘进行加权(即, 两个城市共有的趋势主题越多, 归因于它们之间的联系的权重就越大)。
例如, 在10月26日, 福塔雷萨和坎皮纳斯这两个城市共有11个趋势主题, 因此当天的网络包括福塔雷萨和坎皮纳斯之间的权重为11的优势:
用于预测性社交网络分析的数据挖掘

文章图片
此外, 为了帮助加权城市之间的关系, 我还考虑了与选举本身无关的主题(前提是, 具有其他共同优先事项和利益的城市可能更倾向于分享相同的政治倾向。 )。
尽管趋势主题的顺序可能对分析具有一定的意义, 但是为了简化概念验证, 我选择忽略趋势主题列表中主题的顺序。
网络拓扑结构 网络拓扑本质上是网络各种元素(链接, 节点等)的布置。对于我们正在分析的社交网络, 由于网络的节点(即14个城市)保持固定, 因此网络拓扑在3天之内变化不大。但是, 由于城市之间的共同趋势主题的数量在3天之内变化, 因此可以检测到节点之间链接的权重差异, 如以下第24天与第25天的网络拓扑比较所示。
用于预测性社交网络分析的数据挖掘

文章图片
使用Twitter趋势主题数据预测选举结果 为了帮助我们预测选举结果, 我们不仅考虑了城市之间共同的趋势主题, 而且还考虑了这些主题的内容与两个主要政党中的每一个的可能支持之间的关系;即Partido dos Trabalhadores(PT)和巴西社会民主主义党(PSDB)。
首先, 我创建了一个单词和短语的列表, 这些单词和短语表示对某方的积极支持或支持。 (公认的, 这是一个非常复杂的任务。在这一概念证明的背景下, 我特意采用了一种简化的方法。如果有的话, 这使得结果的口径更加引人入胜, 因为对术语的列表进行了更严格的调整和词组可能会进一步提高结果的准确性。)
然后, 对于每个节点, 我计算:
  • 它的链接数, 其中包括表明支持PT的术语
  • 它的链接数, 其中包括表明支持PSDB的术语
再次以Fortazel??a市为例, 我最终得到以下结果:
Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37

因此, 我们得出的结论是, 福塔雷萨居民普遍偏爱特拉巴哈多雷斯党(PT)。
结果与结论 基于此算法, 分析得出的结果出乎意料地类似于实际的选举结果, 尤其是当考虑到我们方法的总体简单性时。以下是根据Twitter趋势主题数据得出的预测结果与真实选举结果的比较(红色代表Partido dos Trabalhadores, 蓝色代表Partido da Social Democracia Brasileira):
用于预测性社交网络分析的数据挖掘

文章图片
改进的科学严谨性以及更复杂的算法和指标无疑将进一步提高结果。
例如, 以下是一些指标, 可用于推断节点的重要性或影响力, 这些指标又可为本文所述的预测分析提供依据:
  • 节点中心性。存在许多可用于帮助识别网络中最重要或最有影响力的节点的节点中心性度量。例如, 中间性中心性如果在许多其他节点之间形成桥梁, 则认为该节点非常重要。另一方面, 特征值中心性则基于节点的重要性, 而该重要性取决于链接到该节点的其他高度重要的节点的数量。
  • 聚类系数。节点的聚集系数衡量节点的” 邻居” 彼此连接的程度。这是另一种与评估节点对相邻节点的影响程度有关的度量。
  • 学位中心。度中心性基于到节点的链接(即连接)的数量。这是衡量网络中节点” 重要性” 的最简单方法之一。
但是, 即使没有这种复杂的水平, 使用这个简单的概念验证所获得的结果仍可以使用Twitter Trend Topic数据有效地进行有效的预测分析。显然, 将来有可能进一步进行社交媒体数据分析。

    推荐阅读