多元统计分析03（多元正态分布的参数估计）多元统计分析03：多元正态分布

Chapter 3 多元正态分布的参数估计
- 一、随机阵的正态分布
  - Part 1：随机阵及其运算
  - Part 2：随机阵的正态分布
- 二、多元正态分布的参数估计
  - Part 1：基本统计量
  - Part 2：似然函数
  - Part 3：极大似然估计
- 三、参数估计的性质
  - Part 1：基本统计量的性质
  - Part 2：极大似然估计的性质

Chapter 3 多元正态分布的参数估计一、随机阵的正态分布 Part 1：随机阵及其运算
从这里开始我们讨论随机阵的问题。把来自 \(p\)? 元总体的容量为 \(n\)??? 的简单随机样本排成一个矩阵，就得到了样本数据阵。这是一个随机阵，其定义如下：

\[X=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{array}\right]\xlongequal{def} \left[\begin{array}{c} X_{(1)}' \\ X_{(2)}' \\ \vdots \\ X_{(n)}' \\ \end{array}\right]\xlongequal{def}\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right) \ , \]
数据阵的每一行 \(X_{(i)}'\) 都是随机向量 \((X_1,X_2,\cdots,X_p)\) 的一个简单随机样本；
数据阵的每一列 \(\mathcal{X}_j\)? 都是随机变量 \(X_j\)?? 的一组简单随机样本。
拉直运算指的是将随机矩阵转化为一个长的列向量，把 \(X\) 中的第 \(2\) 列接到第 \(1\) 列的后面，再把第 \(3\) 列接到第 \(2\) 列的后面，以此类推。
如果把样本数据阵写成 \(p\) 个列向量的形式，即 \(X=\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right)\) ，则拉直运算就是把矩阵的每一个列向量按列排列，组成一个 \(np\) 维向量，记为

\[{\rm Vec}\left(X\right)=\left[\begin{array}{c} \mathcal{X}_1 \\ \mathcal{X}_2 \\ \vdots \\ \mathcal{X}_p \\ \end{array}\right]=\left(x_{11},x_{21},\cdots,x_{n1}\cdots,x_{1p},x_{2p},\cdots,x_{np}\right)' \ . \]
如果要对样本进行拉直（按行拉直），可以先将数据阵转置，然后进行拉直运算，组成一个 \(np\)? 维向量，记为

\[{\rm Vec}\left(X'\right)=\left[\begin{array}{c} X_{(1)} \\ X_{(2)} \\ \vdots \\ X_{(n)} \\ \end{array}\right]=\left(x_{11},x_{12},\cdots,x_{1p}\cdots,x_{n1},x_{n2},\cdots,x_{np}\right)' \ . \]
特别地，如果 \(X\) 是 \(p\) 阶对称随机阵，在 \(X\) 中只包含 \(p(p+1)/2\) 个不同的随机变量，故将其直接进行拉直运算，拉直成一个 \(p^2\) 维向量是不合适的。因此，我们专门定义了对称矩阵的拉直运算，将 \(\rm X\) 拉直成一个 \(p(p+1)/2\)? 维向量，即

\[{\rm Svec}(X)=\left(x_{11},x_{21},\cdots,x_{p1},x_{22},x_{32},\cdots,x_{p2},\cdots,x_{pp}\right)' \ . \]
克罗内克(Kronecker)积又称为矩阵的直积，其运算法则简单来说就是用左矩阵的每一个元素去数乘右矩阵，其定义如下：
设 \(A=(a_{ij})\)?? 是 \(n\times p\)? 的矩阵，\(B\) 是 \(m\times q\)? 的矩阵，定义 \(A\) 和 \(B\) 的克罗内克积为

\[A\otimes B=(a_{ij}B)=\left[\begin{array}{cccc} a_{11}B & a_{12}B & \cdots & a_{1p}B \\ a_{21}B & a_{22}B & \cdots & a_{2p}B \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1}B & a_{n2}B & \cdots & a_{np}B \\ \end{array}\right] \ . \]
可以看出，\(A\otimes B\) 的每个元素都是一个矩阵，该矩阵为 \(A\) 的对应元素数乘 \(B\) 得到。如果将 \(A\otimes B\) 的每个元素上的矩阵写开，将得到一个 \(mn\times pq\)?? 维的矩阵。注意：\(A\otimes B\neq B\otimes A\) 。
Part 2：随机阵的正态分布
接下来我们考虑样本数据阵的分布。如果样本来自多元正态总体 \(N_p(\mu,\Sigma)\)? ，那么样本数据阵 \(X\)? 的每一列都是来自一元正态总体的简单随机样本，所以是相互独立的。
根据按行拉直运算的定义，\({\rm Vec}\left(X'\right)\) 指的是将每个样本排列在一起拉直得到的列向量，所以有

\[{\rm Vec}\left(X'\right)\sim N_{np}\left(\bold{1}_n\otimes\mu,I_n\otimes\Sigma\right) \ , \]
其中 \(\bold{1}_n\) 表示向量元素均为 \(1\) 的 \(n\) 维常向量，\(I_n\) 表示 \(n\) 阶单位矩阵。根据克罗内克积的定义，

\[\bold{1}_n\otimes\mu=\left[\begin{array}{c} \mu \\ \mu \\ \vdots \\ \mu \end{array}\right] \ , \quad I_n\otimes\Sigma=\left[\begin{array}{ccc} \Sigma & \cdots & O \\ \vdots & & \vdots \\ O & \cdots & \Sigma \end{array}\right] \ . \]
这样我们就可以定义随机阵的正态分布。如果一个随机矩阵 \(X\)? 按样本拉直后满足

\[{\rm Vec}\left(X'\right)\sim N_{np}\left(\bold{1}_n\otimes\mu,I_n\otimes\Sigma\right) \ , \]
就称 \(X\) 服从矩阵正态分布，记作

\[X\sim N_{n\times p}(M,I_n\otimes\Sigma) \ , \]
其中

\[M=\left[\begin{array}{cccc} \mu_1 & \mu_2 & \cdots & \mu_p \\ \mu_1 & \mu_2 & \cdots & \mu_p \\ \vdots & \vdots & \ddots & \vdots \\ \mu_1 & \mu_2 & \cdots & \mu_p \\ \end{array}\right]=\bold{1}_n\mu'=\left[\begin{array}{c} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right]\left(\mu_1,\mu_2,\cdots,\mu_p\right) \ . \]
容易验证

\[{\rm Vec}\left(M'\right)=\bold{1}_n\otimes\mu=\left(\mu_1,\mu_2,\cdots,\mu_p,\mu_1,\mu_2,\cdots,\mu_p,\cdots,\mu_1,\mu_2,\cdots,\mu_p\right)' \ . \]
于是随机阵的正态分布可以等价的表示为

\[X\sim N_{n\times p}(M,I_n\otimes\Sigma)\quad \iff \quad {\rm Vec}\left(X'\right)\sim N_{np}\left({\rm Vec}\left( M'\right),I_n\otimes\Sigma\right) \ . \]
随机阵的正态分布具有如下性质：设 \(X\sim N_{n\times p}(M,I_n\otimes\Sigma)\) ，设 \(A\) 是 \(k\times n\) 常数矩阵，\(B\) 是 \(q\times p\) 常数矩阵，\(D\) 是 \(k\times q\) 常数矩阵，如果对 \(X\) 作线性变换得到 \({\rm Z}=AXB'+D\) ，则有
【多元统计分析03（多元正态分布的参数估计）】
\[{\rm Z}\sim N_{k\times q}\left(AMB'+D,(AA')\otimes(B\Sigma B')\right) \ . \]
二、多元正态分布的参数估计 Part 1：基本统计量
设总体 \(X=(X_1,X_2,\cdots,X_p)\)? 服从 \(p\)? 元正态分布 \(N_p(\mu,\Sigma)\)? ，这里我们主要讨论参数 \(\mu\)? 和 \(\Sigma\)?? 的极大似然估计及其性质。设随机阵 \(X\)? 表示一组样本容量为 \(n\)????? 的简单随机样本：

\[X=\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{array}\right] \ . \]
首先从样本数据阵 \(X\)? 出发，可以定义如下相关的统计量。
样本均值向量，即对 \(X\) 的每个分量求样本均值，得到的一个 \(p\)? 维向量：

\[\bar{X}=\frac1n\sum_{i=1}^nX_{(i)}=\left(\bar{x}_1,\bar{x}_2,\cdots,\bar{x}_p\right)'=\frac1nX'\bold{1}_n \ , \]
其中，\(\bar{x}_j\)? 表示第 \(j\) 个分量 \(X_j\)? 的样本均值：

\[\bar{x}_j=\frac1n\sum_{i=1}^nx_{ij} \ , \quad j=1,2,\cdots,p \ . \]
样本离差阵（交叉乘积阵），类比于一元总体的简单随机样本的离差平方和：

\[A=\sum_{i=1}^n\left(X_i-\bar{X}\right)\left(X_i-\bar{X}\right)'=X' X-n\bar{X}\bar{X}'=X'\left[I_n-\frac1n\bold{1}_n\bold{1}_n'\right]X \ , \]
在已知样本数据阵的情况下，常用最后一个表达式计算样本离差阵。由样本离差阵的定义，易知 \(A\) 是一个 \(p\times p\)?? 的对称矩阵，且有

\[A\xlongequal{def}\left(a_{ij}\right)_{p\times p} \ , \quad a_{ij}=\sum_{k=1}^n\left(x_{ki}-\bar{x}_i\right)\left(x_{kj}-\bar{x}_j\right) \ , \quad i,j=1,2,\cdots,p \ . \]
样本协方差阵，其定义类似于样本方差，由样本离差阵除以自由度可得：

\[S=\frac{1}{n-1}A\xlongequal{def}\left(s_{ij}\right)_{p\times p} \ , \]
所以 \(S\) 也是一个 \(p\times p\) 的对称矩阵，其对角线元素 \(s_{jj}\)? 的表达式为：

\[s_{jj}=\frac{1}{n-1}\sum_{k=1}^n(x_{kj}-\bar{x}_j)^2 \ ,\quad j=1,2,\cdots,p \ , \]
易知 \(s_{jj}\)? 表示分量 \(X_j\)? 的样本方差，其平方根 \(\sqrt{s_{jj}}\)? 表示分量 \(X_j\)?? 的样本标准差。此外 \(S\) 的非对角线元素 \(s_{ij}\ (i\neq j)\) 表示分量 \(X_i\) 和 \(X_j\)??? 的样本协方差。
有时我们也将样本协方差阵定义为

\[S^*=\frac1nA \ , \quad s_{jj}^*=\frac{1}{n}\sum_{k=1}^n(x_{kj}-\bar{x}_j)^2 \ ,\quad j=1,2,\cdots,p \ . \]
样本相关阵，其元素由样本相关系数构成，因此用样本协方差阵的元素即可定义：

\[R\xlongequal{def}(r_{ij})_{p\times p} \ , \quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}}\sqrt{a_{jj}}} \ , \quad i,j=1,2,\cdots,p \ . \]
易知 \(R\) 是一个对角线元素均为 \(1\) 的 \(p\times p\) 的对称矩阵。
Part 2：似然函数
用极大似然法求参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量，首先需要写出似然函数。似然函数就是样本 \(X\) 的联合密度函数，只不过这里的每个样本都是 \(p\) 元正态随机向量，也就是 \(n\) 个 \(p\) 元正态密度函数的乘积。
我们可以使用拉直运算，将 \({\rm Vec}(X')\) 的联合密度函数看成参数 \(\mu\) 和 \(\Sigma\)?? 的函数，就得到了我们所需要的似然函数，记为 \(L(\mu,\Sigma)\) ：

\[\begin{aligned} L(\mu,\Sigma)&=\prod_{i=1}^n\frac{1}{(2\pi)^{p/2}\left|\Sigma\right|^{1/2}}\exp\left\{-\frac12\left(x_{(i)}-\mu\right)'\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \\ \\ &=\frac{1}{(2\pi)^{np/2}\left|\Sigma\right|^{n/2}}\exp\left\{-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)'\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \ . \end{aligned} \]
由此求得对数似然函数 \(l(\mu,\Sigma)\) 为：

\[\begin{aligned} l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)'\Sigma^{-1}\left(x_{(i)}-\mu\right) \ . \end{aligned} \]
由上式最后的部分是一个实数，所以可以利用矩阵的迹的有关性质进行变换：

\[\begin{aligned} \sum_{i=1}^n\left(x_{(i)}-\mu\right)'\Sigma^{-1}\left(x_{(i)}-\mu\right)&={\rm tr}\left[\sum_{i=1}^n\left(x_{(i)}-\mu\right)'\Sigma^{-1}\left(x_{(i)}-\mu\right)\right] \\ \\ &={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\mu\right)\left(x_{(i)}-\mu\right)'\right] \\ \\ &={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)'\right] \\ \\ &={\rm tr}\left[\Sigma^{-1}\left(A+n\left(\bar{X}-\mu\right)\left(\bar{X}-\mu\right)'\right)\right] \\ \\ &={\rm tr}\left(\Sigma^{-1}A\right)+n\left(\bar{X}-\mu\right)'\Sigma^{-1}\left(\bar{X}-\mu\right) \ . \end{aligned} \]
于是我们可以将对数似然函数写为

\[\begin{aligned} l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right)-\frac n2\left(\bar{X}-\mu\right)'\Sigma^{-1}\left(\bar{X}-\mu\right)\ . \end{aligned} \]
Part 3：极大似然估计
求解极大似然估计，需要最大化似然函数。一种方法是我们可以对向量 \(\mu\) 和矩阵 \(\Sigma\)?? 求导，但矩阵微商的计算比较麻烦，所以这里我们介绍一个引理。
引理：设 \(B\) 是 \(p\) 阶正定矩阵，则有 \({\rm tr}B-\ln\left|B\right|\geq p\) ，且等号成立当且仅当 \(B=I_p\) 。

由于 \(B\) 正定，所以 \(B\) 的全部特征值 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\) ，且 \(\left|B\right|=\lambda_1\lambda_2\cdots\lambda_p\) 。
利用不等式 \(\ln(1+x)\leq x\) 可得

\[\begin{aligned} \ln|B|&=\sum_{j=1}^p\ln\lambda_j=\sum_{j=1}^p\ln(1+\lambda_j-1) \leq\sum_{j=1}^p(\lambda_j-1)={\rm tr} B-p \ . \end{aligned} \]
所以

\[{\rm tr} B-\ln |B|\geq p \ . \]
由于不等式 \(\ln(1+x)\leq x\)? 的等号成立条件是 \(x=0\)? ，所以当且仅当 \(\lambda_1=\lambda_2=\cdots=\lambda_p=1\)??? 时上式等号成立，即 \(B=I_p\) 。

首先固定 \(\Sigma>0\) ，由二次型的性质知

\[\begin{aligned} l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right)-\frac n2\left(\bar{X}-\mu\right)'\Sigma^{-1}\left(\bar{X}-\mu\right) \\ \\ &\leq-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \ . \end{aligned} \]
以上不等式当且仅当 \(\mu=\bar{X}\) 时等号成立。
进一步取 \(B=\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\)?? 正定，利用引理可得

\[\begin{aligned} l(\bar{X},\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \\ \\ &=-\frac{np}{2}\ln(2\pi)-\frac n2\left[\ln\left|\Sigma\right|+{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)\right] \\ \\ &=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)-\ln\left|\Sigma^{-1}\frac{A}n\right|+\ln\left|\frac An\right|\right] \\ \\ &=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right)-\ln\left|\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right|+\ln\left|\frac An\right|\right] \\ \\ &\leq-\frac{np}{2}\ln(2\pi)-\frac{np}{2}-\frac n2\ln\left|\frac An\right| \ . \end{aligned} \]
以上不等式当且仅当 \(\Sigma=\dfrac An\)????????? 时等号成立。
注意这里的第四个等号，只有在矩阵的迹运算和行列式运算中才成立，其原理是

\[{\rm tr}(AB)={\rm tr}(BA) \ , \quad \det(AB)=\det(A)\det(B)=\det(B)\det(A)=\det(BA) \ . \]
这里用 \(\det(\cdot)\) 表示行列式运算。对于矩阵运算不具有这一性质，即

\[\Sigma^{-1}\frac{A}n\neq\Sigma^{-1/2}\dfrac An\Sigma^{-1/2} \ . \]
由以上的推导过程可知参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量为

\[\hat{\mu}=\bar{X} \ , \quad \hat\Sigma=\frac1nA \ . \]
似然函数的最大值为

\[L\left(\bar{X},\frac1nA\right)=\left(\frac{n}{2\pi e}\right)^{np/2}|A|^{-n/2} \ . \]
三、参数估计的性质 Part 1：基本统计量的性质
定理：设 \(\bar{X}\) 和 \(A\) 分别为 \(p\) 元正态总体 \(N_p(\mu,\Sigma)\) 的样本均值向量和样本离差阵，样本容量为 \(n\) ，则
(1) \(\bar{X}\sim N_p\left(\mu,\dfrac1n\Sigma\right)\) ；
(2) \(A\xlongequal{d}\displaystyle\sum_{k=1}^{n-1}Z_kZ_k'\) ，其中 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同 \(N_p(0,\Sigma)\) 分布；
(3) \(\bar{X}\) 和 \(A\) 相互独立；
(4) \(P(A>0)=1\ \iff\ n>p\) ，即 \(A\) 以概率 \(1\) 正定当且仅当 \(n>p\) 。

该定理的证明和数理统计中一元正态分布的抽样分布类似，需要构造一个正交矩阵，设为 \(\Gamma\) 且具有如下形式

\[\Gamma=\left[\begin{array}{cccc} \gamma_{11} & \gamma_{12} & \cdots & \gamma_{1n} \\ \vdots &\vdots & & \vdots \\ \gamma_{(n-1),1} & \gamma_{(n-1),2} & \cdots & \gamma_{(n-1),n} \\ \cfrac1{\sqrt{n}} &\cfrac1{\sqrt{n}} & \cdots & \cfrac1{\sqrt{n}} \end{array}\right]=(\gamma_{ij})_{n\times n} \ . \]
对样本数据阵构造正交变换，令

\[{\rm Z}=\left[\begin{array}{c} Z_1' \\ Z_2' \\ \vdots \\ Z_n' \\ \end{array}\right]=\Gamma\left[\begin{array}{c} X_{(1)}' \\ X_{(2)}' \\ \vdots \\ X_{(n)}' \\ \end{array}\right]=\Gamma X \ , \]
即对任意的 \(k=1,2,\cdots,n\)? 都有

\[Z_k=\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\left[\begin{array}{c} \gamma_{k1} \\ \gamma_{k2} \\ \vdots \\ \gamma_{kn} \\ \end{array}\right] \ , \]
特别地，当 \(k=n\) 时有

\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)} \ . \]
容易证明 \(Z_k\) 是一个 \(p\)?? 维正态随机向量，且由正交矩阵的性质知

\[\begin{aligned} &{\rm E}(Z_k)=\sum_{i=1}^n\gamma_{ki}{\rm E}\left(X_{(i)}\right)=\left\{\begin{array}{ll} 0 \ , & k\neq n \ . \\ \sqrt{n}\mu \ , & k=n \ . \end{array}\right. \\ \\ &\begin{aligned} {\rm Cov}(Z_k,Z_l)&={\rm E}\left[\left(Z_k-{\rm E}(Z_k)\right)\left(Z_l-{\rm E}(Z_l)\right)'\right] \\ \\ &=\sum_{i=1}^n\gamma_{ki}\gamma_{li}\Sigma=\left\{\begin{array}{ll} O \ , & k\neq l \ . \\ \Sigma \ , & k=l \ . \end{array}\right. \end{aligned} \end{aligned} \]
(1) 由已经证明的性质知

\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)}=\sqrt{n}\bar{X}\sim N_p\left(\sqrt{n}\mu,\Sigma\right) \ , \]
从而可得

\[\bar{X}=\frac{1}{\sqrt{n}}Z_n\sim N_p\left(\mu,\frac1n\Sigma\right) \ . \]
(2) 因为

\[\sum_{i=1}^nZ_iZ_i'={\rm Z}'{\rm Z}=X'\Gamma'\Gamma X=X'X=\sum_{i=1}^nX_{(i)}X_{(i)}' \ , \]
于是有

\[\begin{aligned} \sum_{i=1}^{n-1}Z_iZ_i'&=\sum_{i=1}^nX_{(i)}X_{(i)}'-Z_nZ_n'=\sum_{i=1}^nX_{(i)}X_{(i)}'-n\bar{X}\bar{X}' \\ \\ &=\sum_{i=1}^n\left(X_{(i)}-\bar{X}\right)\left(X_{(i)}-\bar{X}\right)'=A \ . \end{aligned} \]
(3) 因为 \(A\) 是 \(Z_1,Z_2,\cdots,Z_{n-1}\) 的函数，\(\bar{X}\) 是 \(Z_n\) 的函数，而 \(Z_1,Z_2,\cdots,Z_{n-1}\)? 和 \(Z_n\) 相互独立，故 \(A\) 和 \(\bar{X}\) 也相互独立。
(4) 根据以上证明，我们可以令 \(B=\left(Z_1,Z_2,\cdots,Z_{n-1}\right)\)? 从而 \(A=BB'\)? 。
如果 \(A\) 正定，则 \(A\) 的秩为 \(p\)? ?，从而 \(B\) 的秩也为 \(p\) ，于是 \(n-1\geq p\) ，即 \(n>p\) 。
如果 \(n>p\)? ，要证 \(A\)? 以概率 \(1\)? 正定，只需证 \(B\)? 的前 \(p\)? 个分量线性相关的概率为 \(0\)? 。由于 \(B\)? 是一个多元正态随机阵，所以 \(B\)? 的前 \(p\)? 个分量的任意线性组合服从多元正态分布。
所以对于任意不全为零的 \(\beta_1,\beta_2,\cdots,\beta_p\in\mathbb{R}\)? ，由连续型随机变量的性质知

\[P\left(\sum_{i=1}^p\beta_iZ_i=0\right)=0 \]
进而在统计意义下 \(B\) 的前 \(p\) 个分量以概率 \(1\) 线性无关，从而 \(A\) 以概率 \(1\) 正定。

Part 2：极大似然估计的性质
无偏性：样本均值向量 \(\bar{X}\)? 是 \(\mu\)? 的无偏估计，样本协方差阵 \(S=\dfrac1{n-1}A\)? 是 \(\Sigma\)? 的无偏估计，但 \(\Sigma\)? 的极大似然估计量 \(\hat\Sigma=\dfrac1nA\)? 不是 \(\Sigma\)??? 的无偏估计。

\[{\rm E}(\bar{X})=\mu \ , \quad {\rm E}\left(A\right)=(n-1)\Sigma \ . \]
有效性：样本均值向量和样本协方差阵 \((\bar{X},S)\) 是 \((\mu,\Sigma)\) 的一致最小方差无偏估计量，也是 \((\mu,\Sigma)\) 的充分完备统计量。
相合性：当 \(n\to\infty\)??? 时 \(\bar{X},\hat\Sigma\)? 是 \(\mu,\Sigma\)????? 的强相合估计。利用 \({\rm E}(\bar{X})=\mu\)?? 和 Kolmogorov 强大数定律可知

\[P\left(\lim_{n\to\infty}\bar{X}=\mu\right)=1 \ . \]
由于 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同分布服从于 \(N_p(0,\Sigma)\) ，所以 \({\rm E}\left(Z_iZ_i'\right)=\Sigma\) ，再利用 Kolmogorov 强大数定律可知

\[P\left(\lim_{n\to\infty}\hat\Sigma=\Sigma\right)=P\left(\lim_{n\to\infty}\frac1n\sum_{i=1}^{n-1}Z_iZ_i'=\Sigma\right)=1 \ . \]