论文是如何被引用的()
想直奔主题看代码和数据的小伙伴请点击>>>>> Github
一、问题背景
每一篇论文后面通常都会有参考文献,这些参考文献是如何被引用的呢?是(在同一领域论文中)被随机选中的吗?还是说存在着某种隐含模式,比如说马太效应(“穷则越穷,富则越富”)?
数据集介绍:关于某个领域论文引用关系的数据,已经经过处理,并存储成了以文本表示的图格式,其中第一列为论文编号(共27770篇),第二列-第N列是其对应的参考论文编号,部分数据截图如下:
文章图片
数据 二、问题分析
论文引用模式,我们可以理解为一个有向图结构模式的问题。我们把所有的论文当成是一个个的节点,论文间的引用关系用有向的边表示。
举个例子,假设我们有论文1、2、3、4,如果论文1引用了论文2,论文2引用了论文3,论文3引用了论文4,论文4引用了论文1和论文2,其有向图拓扑结构如下所示:
文章图片
论文引用有向图 我们想知道论文的引用模式,其实就是一个有向图的in-degree分布问题,于是我们就把这个问题转化成数学问题了。接下来,我们要做的事情
1、数据导入、数据转换三、数据处理
2、数据探索(in-degree distribution)
3、跟两种模式进行对比:
(1)随机模式
(2)马太效应模式
文章图片
数据导入 四、数据探索
文章图片
数据探索1
文章图片
数据探索2
文章图片
数据探索3 根据上面的citation graph的in-degree分布图,我们可以看到,论文被引用次数少的占比较大,随着论文被引用次数增长,论文所占的比例是越来越低的,有点类似长尾分布。但是看了这个图还是没什么感觉,我们找个随机引用模式下的图来对比看看。
五、随机模式对比 随机模式算法:
文章图片
random graph 算法 【论文是如何被引用的()】Python 实现:
文章图片
随机模式1
文章图片
随机模式2
文章图片
随机模式3
文章图片
随机模式4 对比我们的citation graph 跟 random graph的in-degree distribution,可以很明显的看到差别,citation graph的in-degree distribution散点图看起来是一条长尾,而random graph的in-degree distribution散点图看起来是个钟形图,很显然,论文引用的模式并不是随机的。我们再来看看另一种模式,这里需要设计一个算法来生成类似马太效应的graph,这里用了DPA算法,思路就是那些in-degree越大的节点被选中作为新节点的neighbor的概率越大,进而又使得它的in-degree更大。
六、马太效应模式对比 DPA算法:
文章图片
DPA 算法 代码略过,直接看图。
文章图片
DPA graph的in-degree distribution plot看起来跟citation graph的in-degree distribution plot比较类似,都是随着论文被引用次数增长,论文数量占比下降。也就是说被引用次数很多的论文占的是少数,大部分论文都是被引用很少次的。这跟我们的认知是很相似的。
七、结果解释 为什么论文引用是这样一种“富则越富”模式呢?
从DPA算法的设计中我们得到一些灵感,那些被引用次数越多的论文,其曝光次数越多,被越多的人看到,然后这些人又引用了这些论文,就像滚雪球一样,越滚越大。而那些默默无闻的论文,由于曝光次数太少,就渐渐沉了,更加不会被引用了。
学习资料:Coursera Algorithmic Thinking course materials.
推荐阅读
- 闺蜜之间,没有什么事情是礼物解决不了的
- 凛冬将至,唤醒你的不再是父母的呼唤,而是香甜的烤蜜薯
- 饮食男女|饮食男女 人之大欲.
- 86.
- 精选毕业设计完整源码+论文|asp毕业设计——基于C#+asp.net+cs的CS应用程序平台多语种技术设计与实现(毕业论文+程序源码)——平台多语种技术
- 精选毕业设计完整源码+论文|asp毕业设计——基于C#+asp.net+cs的即时通信系统设计与实现(毕业论文+程序源码)——即时通信系统
- 精选毕业设计完整源码+论文|asp毕业设计——基于C#+asp.net+ACCESS的电子商务网站设计与实现(毕业论文+程序源码)——电子商务网站
- 学java还是python还是php-零基础应该选择学习|学java还是python还是php-零基础应该选择学习 java、php、前端 还是 python()
- 我有一个好孩子
- “爸爸,我是不是个胆小鬼(”——如何对孩子解释“勇敢”二字!)