模式识别|非参数估计的基本原理与直方图方法

非参数估计的基本原理与直方图方法 1. 前言 在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。
在此背景下,采用非参数估计,即不对概率密度函数的形式作任何假设,而是直接用样本估计出整个函数。当然,这种估计只能用数值方法取得,无法得到完美的封闭函数形式。
从另一个角度来看,概率密度函数的参数估计实际是在指定的一类函数中选择一个函数作为对未知函数的估计,而非参数估计则可以是看作是从所有可能的函数中进行的一种选择。
2. 直方图方法 非参数概率密度估计的最简单方法:

  1. 把样本 x x x的每个分量在其取值范围内分成 k k k个等间隔的小窗。如果 x x x是 d d d维向量,则这种分割就会得到 k d k^d kd个小体积或者小舱,每个小舱的体积记作 V V V。
  2. 统计落入每个小舱内的样本数目 q i q_i qi?。
  3. 把每个小舱内的概率密度看作是常数,并用 q i N V \frac{q_i}{NV} NVqi??作为其估计值,其中 N N N为样本总数。
    模式识别|非参数估计的基本原理与直方图方法
    文章图片
3. 非参数估计的基本原理 已知样本集 X = { x 1 , . . . , x N } X=\{x_1,...,x_N\} X={ x1?,...,xN?}中的样本是从服从密度函数 ρ ( x ) \rho(x) ρ(x)的总体中独立抽取出来的,求 ρ ( x ) \rho(x) ρ(x)得估计 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^?。与参数估计相同,这里不考虑类别,即假设样本都是来自同一个类别,对不同类别只需要分别进行估计即可。
考虑在样本所在空间得某个小区域 R R R,某个随机向量落入这个小区域得概率是:
P R = ∫ R ρ ( x ) d x (1) P_R=\int_{R} \rho(x) dx \tag 1 PR?=∫R?ρ(x)dx(1)
根据二项分布,在样本集 X X X中恰好有 k k k个落入小区域 R R R得概率是:
P R = C N k P R k ( 1 ? P R ) N ? k (2) P_R=C_N^k P_R^k(1-P_R)^{N-k} \tag 2 PR?=CNk?PRk?(1?PR?)N?k(2)
其中 C N k C_N^k CNk?表示在 N N N个样本中取 k k k个的组合数。 k k k的期望值是:
E [ k ] = N P R (3) E[k]=NP_R \tag 3 E[k]=NPR?(3)
而且 k k k的众数(概率最大的取值)是:
m = [ ( N + 1 ) P R ] (4) m=[(N+1)P_R] \tag 4 m=[(N+1)PR?](4)
其中 [] [ \ ] [ ]表示取整数。因此,当小区域中实际落入了 k k k个样本时, P R P_R PR?的一个很好的估计是:
P R ^ = k N (5) \hat{P_R} = \frac{k}{N} \tag 5 PR?^?=Nk?(5)
当 ρ ( x ) \rho(x) ρ(x)连续、且小区域 R R R的体积 V V V足够小时,可以假定在该小区域范围内 ρ ( x ) \rho(x) ρ(x)是常数,则式 ( 2 ) (2) (2)可近似为:
P R = ∫ R ρ ( x ) d x = ρ ( x ) V (6) P_R=\int_R \rho(x) dx = \rho(x) V \tag 6 PR?=∫R?ρ(x)dx=ρ(x)V(6)
用式 ( 5 ) (5) (5)代入 ( 6 ) (6) (6),可得在小区域 R R R的范围内:
ρ ( x ) ^ = k N V (7) \hat{\rho(x)}=\frac{k}{NV} \tag 7 ρ(x)^?=NVk?(7)
这就是在上面的直方图中使用的对小舱内概率密度的估计。
  1. 如果小舱选择过大,则假设 ρ ( x ) \rho(x) ρ(x)在小舱内为常数的做法就显得粗糙,导致最终估计出的密度函数也非常粗糙;
  2. 如果小舱过小,则有些小舱内可能就会没有样本或者很少样本,导致估计出的概率密度函数很不连续。
模式识别|非参数估计的基本原理与直方图方法
文章图片
【模式识别|非参数估计的基本原理与直方图方法】所以,小舱的选择应该与样本总数相适应。理论上讲,假定样本总数是 n n n,小舱的体积为 V n V_n Vn?,在 x x x附近位置上落入小舱的样本个数是 k n k_n kn?,那么当样本趋于无穷多时 ρ ( x ) ^ \hat{\rho(x)} ρ(x)^?收敛于 ρ ( x ) \rho(x) ρ(x)的条件是:
( 1 ) V n = 0 ( n → ∞ ) , ( 2 ) k n = ∞ ( n → ∞ ) , ( 3 ) k n n = 0 ( n → ∞ ) (1) V_n = 0 (n \rightarrow \infty),(2)k_n = \infty(n \rightarrow \infty),(3) \frac{k_n}{n} = 0(n \rightarrow \infty) (1)Vn?=0(n→∞),(2)kn?=∞(n→∞),(3)nkn??=0(n→∞)
直观的解释是:随着样本数的增加,小舱体积应该尽可能小(1),同时又必须保证小舱内有充分多的样本(2),但每个小舱内的样本数又必须是总样本数中很小的一部分(3)

    推荐阅读