矩阵教程之一(随机矩阵)

·这是一个囊括了方阵、三角阵、纯量阵、转置矩阵与随机矩阵的教程,也涉及矩阵的秩,有向图和马尔可夫链相关内容。


主题包括:
1、 关于这个数学教程
2、方阵的主对角线与迹
3、行向量、列向量、纯量阵与转置矩阵
4、矩阵的秩
5、神秘的随机矩阵
6、有向图、入度与出度
7、马尔可夫链与连接模型
8、SEO blogonomies: 搜索引擎马尔可夫链
9、接下来是什么?
10、本篇回顾
11、参考文献


1、 关于这个数学教程

这份教程是为了向信息检索专业的学生和搜索引擎营销者介绍矩阵、特征值和特征向量相关的知识。在教程的第一部分我们将回顾一些相关的定义,让读者熟悉不同类型的矩阵。在第二部分我们会转到介绍一些基本的矩阵运算,第三部分介绍神秘的特征值与特征向量,以及如何计算他们。


我们希望这个教程以如下的顺序展开,例如:首先让大家对矩阵有一个直观的印象,然后介绍矩阵运算,这将有助于学生将矩阵运算与他们已经熟悉的数学运算相联系起来。目前已有的大部分矩阵教程在视觉化上做的十分混乱,强迫学生在继续阅读新的内容之前停下来去找教程中的图与文字的对应关系。在我们看来,那种讲述方式为交流增加了不必要的难度。


通过把理解与计算分开介绍,在完成这个教程的学习时,读者将能够区分不同的矩阵,理解一些关键的概念如矩阵的秩、有向图、马尔可夫链和另一些未提供资源以进行数学计算的关键概念。


在这个教程里我们并不打算做一个综合性的回顾,我们把论述范围限制在那些我们认为与连接模型和聚类结构相关的内容上,并提供了一些应用与例子。


这里的大部分材料和例子都来自两本好书(1,2),我在上研究生院的时候反复阅读过这两本书,那是在商业的互联网搜索引擎(Google、yahoo、msn等)出现之前。

  1. Graphical Exploratory Data Analysis; S.H.C du Toit, A.G.W. Steyn and R.H. Stumpf, Springer-Verlag (1986).
  2. Handbook of Applied Mathematics for Engineers and Scientists; Max Kurtz, McGraw Hill (1991).
为什么我们要以信息检索专业的学生和搜索引擎营销者为受众的读者写这么一个教程呢? 事实上,这里有很多原因,简单列举几个:
1、 矩阵能够简化模型计算
2、 特征向量可用于理解连接模型与网络
3、 特征值、特征向量、随机矩阵、马尔可夫链等有助于理解不同的随机过程
4、 通常学生和搜索引擎营销者都认为这些概念太过抽象难以理解
5、 关于这些主题的研究论文在sem论坛、seo博客中经常被错误引用,相关的核心概念逐渐 blogonomies


因此,这个教程的目标之一就是在我们打破围绕在那些概念上的神秘感的同时帮助我们的读者掌握那些概念,使读者在下次再遇到相关的概念的时候能够快速把握相关的谈话要点,至少是很好的那部分内容。


2、方阵的主对角线与迹
我们先定义一个矩阵然后回顾其他的一些基本的定义。


矩阵就是由一些行(m行)和列(n列)构成的矩形阵列;或者说一个表。因此,如果我们把表格化的数据输入到一个excel表格中,它可以被视为一个矩阵。如果你执行一个mom-n-pop任务,且需要把数字或者字母安放在一些行和列中,那么你已经在处理矩阵了。


如果一个矩阵的同样数量的行(m)和列(n),那么它就被称作是方阵,如m=n。这样的矩阵通常被称作n阶矩阵或者阶为n。因此,一个两行两列的矩阵就是一个2阶矩阵,而一个三行三列的矩阵是一个三阶矩阵。


矩阵元素通过制定的行和列下标来标识。因此,矩阵A的元素可以表示为a_ij,例如,a32表示第三行第二列的元素。


从方阵的左上角到右下角的元素决定的对角线称为是主对角线。主对角线上的元素称作是主元(素)或者对角元(素),主对角线上的元素的和定义为矩阵的迹。在教程的第一部分和第二部分我们将会看到迹是一个很重要的概念。从图1可以进一步看到这些概念的含义。




图1方阵的主对角线和迹


3、行向量、列向量、纯量阵与转置矩阵
一个仅有一行的矩阵定义为行向量,与此类似,仅有一列的矩阵被定义为列向量。空矩阵是一个所有元素皆为0的矩阵。


如果一个矩阵的非对角元素都是0,那么这就是一个对角矩阵;进一步,如果对角阵的对角元素大小都一样,那么这就是一个纯量阵;如果纯量阵的对角元大小为1,那它就是一个单位阵,一般用 I 表示。


A的转置矩阵AT(T为上角标,原谅我无法输入公式)是通过把矩阵的行变成列或者把列变成行得到的。通过图2,你可以更好的理解这些概念。


图2一些矩阵示例




4、矩阵的秩
如果矩阵的主对角线上方的元素或者下方的元素全部为0,那么它就是一个三角阵。进一步,三角阵可以分为上三角阵和下三角阵,对应于零元素是在主对角线的下方还是上方。


矩阵的秩事指矩阵包含的线性独立的行的数量或者线性独立的列的数量中较小的那一个。据此,我们可以推断方阵的秩等于其等价上三角矩阵的非零行数或者等价列矩阵的非零列数中的较小的那一个。


图3中是一个方阵和它的等价矩阵。等价矩阵是通过对矩阵的列之间做减法得到的。如果现在你不能理解把方阵变换为三角阵也不必担心。重要的是,B矩阵有三个非零列,说明了A矩阵的秩为3。




图3方阵的秩


5、神秘的随机矩阵
如果一个矩阵所有的元素都是非负的,我们就可以通过将行的元素除以该行所有元素的和来规一化这个行,很显然,这样处理之后这一行的元素累加和为1。通常,行元素的和为1 的矩阵被称作随机矩阵。随机矩阵的元素值可以为0。






图4随机矩阵


随机矩阵也可以通过对矩阵的列归一化得到,因此我们通常使用行随机矩阵和列随机矩阵来区分两者。而双随机矩阵是指矩阵的任意一行的和或者任意一列的和为1。这时候矩阵A和他的转置都是随机矩阵。


6、有向图、入度和出度
一个有向图由带标号的结点和用带箭头的线段指示方向的边构成,边上的箭头的方向表明该条边连接的两个节点之间的关系,由其他节点出发指向一个节点的箭头的数量被称作出度,而从该节点指向别的节点的箭头的数量称作入度。为了解释这几个概念,我们使用Graphical Exploratory Data Analysis(1) 一书作者1986年给出的这个例子:




图5六个人之间友谊的有向图


在这里我们把那六个人之间的友谊用一个有向图来表示。箭头的方向说明了所有的问题。1、3和6视2为朋友,但2只把3当作朋友。


下边的阵列描述了节点之间的关系,需要说明的是行的和表示出度而列的和表示入度。




图6六人友谊关系有向图的出度和入度


当我们用一个矩阵来表示这种友谊关系时,得到的矩阵被称作邻接矩阵。如果把邻接矩阵的每一行的元素除以相应的出度,就得到一个行随机矩阵。




图7从有向图得到的行随机矩阵


7、马尔可夫链和连接模型
到此那些基本的概念都弄清楚了,现在我们谈谈随机过程。


随机过程是指一个过程或者一系列的事件随机出现(发生)的。 如果随机过程随着时间而演变,那么那就是一个马尔可夫链。观察一下我们得到的随机矩阵,如果矩阵的元素不是代表一个数字而是表示概率P_ij,这个概率就被称作转移概率(从一个状态转移到另一个状态的概率),相应的,矩阵被称作转移矩阵(从一个状态转移到另一个状态的变换矩阵)。(括号内的内容为我根据自己理解添加的内容)


由上面的概念我们可以说马尔可夫链就是一个随着时间按照马尔可夫链转移概率演变的随机过程。




8、搜索引擎优化(SEO) blogonomies: 搜索引擎马尔可夫链

错误的知识或者对概念的不准确的描述在一些圈子中随着搜索引擎优化(SEO)而广泛传播。这种现象在博客圈和一些公共的论坛中最为臭名昭著。正式这个原因,我们称之为blogonomy。我们正在编制一个臭名昭著的搜索引擎领域的 blogonomy列表。


很多blogonomy都是由知名的SEO和SEM专家促成的。这些家伙被他们的追随者称作“专家”,在他们的SEM会议上,他们也摆出一副专家的面孔。他们互相引用彼此或恭维彼此为专家。他们中的许多人都能随手写下几句谬论,抛出一些充斥着专业术语和华丽辞藻的文章。他们也同样是导致失控和挽回颜面的专家。


我们没有兴趣去研究这种现象的背后原因,因为他们的存在已经证明了自我。我们想做的只是让读者意识到这个现象的存在。作为一个SEO blogonomy的一个例子你将看到什么是搜索引擎马尔可夫链 blogonomy。


一些SEO写了一些文章(同样给读者留下了这样的印象)声称搜索引擎所使用神秘的马尔可夫链用于在搜索引擎的搜索结果中或者你的站点里寻找一些模式,说的就像这些链是一个特殊的检测装置、工具或者技术,可以用来查找网页中的关键词模式或者检测网页是如何优化的。这纯粹就是扯淡。


事实上根本就不存在这么一个神秘的用于搜索引擎的马尔可夫链,这些东西都只存在与那些胡乱引用研究论文的所谓的专家和他们的追随者的脑海里。事实上马尔可夫链只是一个简单的随机过程,它按照一定的转移概率随着时间而演变。



如果我们来做一个实验,包含N个可能的结果或者状态。假设我们不断重复这个实验,且第N+1次实验的最终结果只与第N次试验的结果有关,那么这就是一个马尔可夫链。
由上面的描述,我们知道马尔可夫链不是什么用于搜索引擎排序网页或者在文档中查找关键词模式的装置、技术或者工具。虽然在很多研究都把目标视为一个马尔可夫过程以试图更好的理解目标的行为和连接图,但仅此而已。
虽然有吸收马尔可夫链这个东西,但那只是带吸收状态的随机行走的一个特例。 也许写一个关于正则化马尔可夫链和吸收马尔可夫链的教程是一个好主意,或者更好的,向读者们推荐James T. Sandefur写的一本书: Discrete Dynamical System, Theory and Application (Oxford University Press; Chapter 6 Absorbing Markov Chains) (参考文献3) 。如果你有兴趣了解分形、混沌理论和迭代,那本这本书很适合你。

同时,如果你喝醉的时候随机的从一个点走向另一个点,你就很有可能成为一个马尔可夫链的一部分。哈哈~






9、接下来是什么
矩阵教程之二:矩阵运算


10、本篇回顾
a)对角阵、纯量阵与单位阵三者的区别是什么?
b) 下边那一个是方阵? 是一个3行2列的阵列还是一个10行10列的阵列?
c) 找到一份报纸的商业版或者体育版中的可以表示为矩阵的表格数据,计算该矩阵的迹和转置
d) 根据图6,给出一个列随机矩阵
e) 查看你的网站地图,尝试画出一个有向图或者连接结构来表示这个网站地图(只考虑你自己的页面,不考虑指向第三方网站的链接),计算对应该有向图的行随机矩阵和列随机矩阵
f)什么是马尔可夫链?


11、参考文献

  1. Graphical Exploratory Data Analysis; S.H.C du Toit, A.G.W. Steyn and R.H. Stumpf, Springer-Verlag (1986).
  2. Handbook of Applied Mathematics for Engineers and Scientists; Max Kurtz, McGraw Hill (1991).
  3. Discrete Dynamical Systems, Theory and Applications; James T. Sandefur, Oxford University Press; Chapter 6 Absorbing Markov Chains (1990).




ref:
http://www.miislita.com/information-retrieval-tutorial/matrix-tutorial-1-stochastic-matrices.html



译注:本文非直译,或有不准确之处,有疑问者可点击此处围观原文,不喜请勿拍砖,欢迎修改意见,谢谢合作!


【矩阵教程之一(随机矩阵)】另 : 原文中有一词Blogonomies 未得其解,不知如何翻译,有知情者忘不吝告知,谢谢~

    推荐阅读