pythonbic函数 python bcc( 三 )


让我们看看在moon数据集中,使用AIC和BIC函数确定GMM组件数量:
最佳的聚类数目是使得AIC或BIC最小化的值,具体取决于我们希望使用的近似值 。AIC告诉我们,我们上面选择的16个组件可能太多了:大约8-12个组件可能是更好的选择 。与此类问题一样,BIC建议使用更简单的模型 。
注意重点:这个组件数量的选择衡量GMM作为密度估算器的效果,而不是它作为聚类算法的效果 。我鼓励您将GMM主要视为密度估算器,并且只有在简单数据集中保证时才将其用于聚类 。
我们刚刚看到了一个使用GMM作为数据生成模型的简单示例,以便根据输入数据定义的分布创建新样本 。在这里,我们将运行这个想法,并从我们以前使用过的标准数字语料库中生成新的手写数字 。
首先,让我们使用Scikit-Learn的数据工具加载数字数据:
接下来让我们绘制前100个,以准确回忆我们正在看的内容:
我们有64个维度的近1,800位数字,我们可以在这些位置上构建GMM以产生更多 。GMM可能难以在如此高维空间中收敛,因此我们将从数据上的可逆维数减少算法开始 。在这里,我们将使用一个简单的PCA , 要求它保留99%的预测数据方差:
结果是41个维度,减少了近1/3,几乎没有信息丢失 。根据这些预测数据,让我们使用AIC来计算我们应该使用的GMM组件的数量:
似乎大约110个components最小化了AIC;我们将使用这个模型 。我们迅速将其与数据拟合并确保它已收敛合:
现在我们可以使用GMM作为生成模型在这个41维投影空间内绘制100个新点的样本:
最后,我们可以使用PCA对象的逆变换来构造新的数字:
大部分结果看起来像数据集中合理的数字!
考虑一下我们在这里做了什么:给定一个手写数字的样本,我们已经模拟了数据的分布 , 这样我们就可以从数据中生成全新的数字样本:这些是“手写数字”,不是单独的出现在原始数据集中,而是捕获混合模型建模的输入数据的一般特征 。这种数字生成模型可以证明作为贝叶斯生成分类器的一个组成部分非常有用 , 我们将在下一节中看到 。
Python基础之常见内建函数map() 函数接受两个参数,一个是函数,一个是可迭代对象(Iterable), map 将传入的函数依次作用到可迭代对象的每一个元素,并把结果作为迭代器(Iterator)返回 。
举例说明,有一个函数 f(x)=x^2 ,要把这个函数作用到一个list [1,2,3,4,5,6,7,8,9] 上:
运用简单的循环可以实现:
运用高阶函数 map() :
结果 r 是一个迭代器,迭代器是惰性序列,通过 list() 函数让它把整个序列都计算出来并返回一个 list。
如果要把这个list所有数字转为字符串利用 map() 就简单了:
小练习:利用 map() 函数,把用户输入的不规范的英文名字变为首字母大写其他小写的规范名字 。输入 ['adam', 'LISA', 'barT'] ,输出 ['Adam', 'Lisa', 'Bart']
reduce() 函数也是接受两个参数,一个是函数 , 一个是可迭代对象,reduce 将传入的函数作用到可迭代对象的每个元素的结果做累计计算 。然后将最终结果返回 。
效果就是: reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)
举例说明,将序列 [1,2,3,4,5] 变换成整数 12345 :
小练习:编写一个 prod() 函数,可以接受一个 list 并利用 reduce 求积:
map() 和 reduce() 综合练习:编写 str2float 函数,把字符串 '123.456' 转换成浮点型 123.456
filter() 函数用于过滤序列,filter() 也接受一个函数和一个序列,filter() 把传入的函数依次作用于每个元素,然后根据返回值是 True 还是 False 决定保留还是丢弃该元素 。

推荐阅读