论文是如何被引用的()

想直奔主题看代码和数据的小伙伴请点击>>>>> Github
一、问题背景
每一篇论文后面通常都会有参考文献,这些参考文献是如何被引用的呢?是(在同一领域论文中)被随机选中的吗?还是说存在着某种隐含模式,比如说马太效应(“穷则越穷,富则越富”)?
数据集介绍:关于某个领域论文引用关系的数据,已经经过处理,并存储成了以文本表示的图格式,其中第一列为论文编号(共27770篇),第二列-第N列是其对应的参考论文编号,部分数据截图如下:
论文是如何被引用的()
文章图片
数据 二、问题分析 论文引用模式,我们可以理解为一个有向图结构模式的问题。我们把所有的论文当成是一个个的节点,论文间的引用关系用有向的边表示。
举个例子,假设我们有论文1、2、3、4,如果论文1引用了论文2,论文2引用了论文3,论文3引用了论文4,论文4引用了论文1和论文2,其有向图拓扑结构如下所示:
论文是如何被引用的()
文章图片
论文引用有向图 我们想知道论文的引用模式,其实就是一个有向图的in-degree分布问题,于是我们就把这个问题转化成数学问题了。接下来,我们要做的事情

1、数据导入、数据转换
2、数据探索(in-degree distribution)
3、跟两种模式进行对比:
(1)随机模式
(2)马太效应模式
三、数据处理 论文是如何被引用的()
文章图片
数据导入 四、数据探索 论文是如何被引用的()
文章图片
数据探索1 论文是如何被引用的()
文章图片
数据探索2 论文是如何被引用的()
文章图片
数据探索3 根据上面的citation graph的in-degree分布图,我们可以看到,论文被引用次数少的占比较大,随着论文被引用次数增长,论文所占的比例是越来越低的,有点类似长尾分布。但是看了这个图还是没什么感觉,我们找个随机引用模式下的图来对比看看。
五、随机模式对比 随机模式算法:
论文是如何被引用的()
文章图片
random graph 算法 【论文是如何被引用的()】Python 实现:
论文是如何被引用的()
文章图片
随机模式1 论文是如何被引用的()
文章图片
随机模式2 论文是如何被引用的()
文章图片
随机模式3 论文是如何被引用的()
文章图片
随机模式4 对比我们的citation graph 跟 random graph的in-degree distribution,可以很明显的看到差别,citation graph的in-degree distribution散点图看起来是一条长尾,而random graph的in-degree distribution散点图看起来是个钟形图,很显然,论文引用的模式并不是随机的。我们再来看看另一种模式,这里需要设计一个算法来生成类似马太效应的graph,这里用了DPA算法,思路就是那些in-degree越大的节点被选中作为新节点的neighbor的概率越大,进而又使得它的in-degree更大。
六、马太效应模式对比 DPA算法:
论文是如何被引用的()
文章图片
DPA 算法 代码略过,直接看图。
论文是如何被引用的()
文章图片
DPA graph的in-degree distribution plot看起来跟citation graph的in-degree distribution plot比较类似,都是随着论文被引用次数增长,论文数量占比下降。也就是说被引用次数很多的论文占的是少数,大部分论文都是被引用很少次的。这跟我们的认知是很相似的。
七、结果解释 为什么论文引用是这样一种“富则越富”模式呢?
从DPA算法的设计中我们得到一些灵感,那些被引用次数越多的论文,其曝光次数越多,被越多的人看到,然后这些人又引用了这些论文,就像滚雪球一样,越滚越大。而那些默默无闻的论文,由于曝光次数太少,就渐渐沉了,更加不会被引用了。
学习资料:Coursera Algorithmic Thinking course materials.

    推荐阅读