数据挖掘第六讲

数据挖掘第六讲
1什么是马尔可夫模型,什么是转移概率,什么是C-K方程?
1.马尔可夫模型

  • 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性
  • 具有马尔可夫性的随机过程称为马尔可夫过程
  • 时间和状态都是离散的马尔可夫过程称为马尔可夫链
  1. 转移概率
    条件概率
    $$ P_{ij}(m, m +n) = P(X_{m + n} = a_j | X_m =a_i)$$
    为马氏链在时刻 m 处于状态$a_i$条件下,在时刻m+n转移到状态$a_j$的转移概率
  2. 转移矩阵
    由转移概率组成的矩阵称为马氏链的转移概率矩阵.
    (吸收壁,反射壁的概念)
  3. C-K方程
什么是HMM,HMM的三大问题是什么?
  • 隐马尔可夫模型HMM是由两个随机过程组成,其中一个是不可观测的有限状态马氏链(使用作弊骰子),而且它的转移概率可能也是不知道的,这个马氏链称为状态链,另一个随机过程是可观测到的,称为观测链,某时刻观测链的观测结果受该时刻状态链的状态影响。
  1. 评估问题:给定观察序列O和HMM λ=(π, A, B),判断O是由λ产生的可能性有多大?
  • 求解:前向和后向算法
  1. 解码问题:给定观察序列O和HMM λ=(π, A, B),判断序列O对应的最优状态序列是什么?
  • 求解:维特比(viterbi)算法
  1. 学习问题:给定观察序列O,确定产生O的最可能HMM λ=(π, A, B)
  • 求解:鲍姆威尔士(Baum-Welch)算法
什么叫抽样?抽样方法都有哪些,如何抽样?
【数据挖掘第六讲】指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识
  • 样本特征体现总体特征
  • 样本特征与总体特征的偏差在可接受范围内
  1. 随机抽样
    1. 简单随机抽样
      • 对总体单位不做任何分类排队,完全按照随机原则直接从总体中随机抽取一部分单位组成样本的抽样组织方式
        • 先将总体各单位进行编码,然后按照随机原则,用抽签法或随机数法抽取若干数码,所有中选的数码对应的单位即构成样本
    2. 分层抽样
      • 将总体按某个主要标志进行分组,再按随机原则采用简单随机抽样方式从各组中抽取一定数目的总体单位组成样本的抽样组织方式。
      • 按随机原则根据各层中单位数量占总体单位数量的比例抽取各层的样本数量。
    3. 分层最佳抽样
      • 指不仅按各层单位数占总体单位数的比例分配各层的样本数,还根据各层标准差的大小来调整各层样本数目的抽样方法。
    4. 系统抽样
      • 将总体单位按某一标志排序,而后按一定间隔抽取样本单位的抽样组织方式。
    5. 整群抽样
      • 将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位进行全面调查的抽样组织方式
  2. 非随机抽样
    1. 任意抽样
      • 调查人员本着随意性原则去选择样本的抽样方式
        • 简单、经济
        • 默认个体是相同的
        • 误差较大
    2. 判断抽样
      • 根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法
      • 抽样依照调查者个人偏好来选择样本
      • 人的因素至关重要
      • 好的很好,差的很差,两极分化
    3. 配额抽样
      • 指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式
      • 按照一定的标准和比例分配样本的数额,然后根据配额抽取样本
      • 做法与分层抽样完全相同,区别只在于抽的时候是随机抽还是非随机的抽
    4. 滚雪球抽样
      • 先选择一组调查对象,通常是随机地选取的。访问这些被调查者之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。这一过程会继续下去,形成滚雪球的效果

    推荐阅读