决策树分类java代码 决策树算法java代码( 六 )


强大的可视化引擎,许多尖端的高维数据的可视化建模
400多个数据挖掘运营商支持
耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘 , 多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘 。
6、 Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架 。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发 。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起 , 构成一项项复杂的、完整的商务智能解决方案 。
Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础 , 是以流程为中心的,因为其中枢控制器是一个工作流引擎 。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程 。流程可以很容易的被定制,也可以添加新的流程 。BI 平台包含组件和报表,用以分析这些流程的性能 。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等 。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来 。Pentaho的发行,主要以Pentaho SDK的形式进行 。
Pentaho SDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器 。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务 , 包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的 , 通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例 , 它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;
Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案 。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上 。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能 。这些组件的大部分是基于标准的,可使用其他产品替换之 。
7、 SAS Enterprise Miner
§ 支持整个数据挖掘过程的完备工具集
§ 易用的图形界面,适合不同类型的用户快速建模
§ 强大的模型管理和评估功能
§ 快速便捷的模型发布机制, 促进业务闭环形成
数据分析算法
大数据分析主要依靠机器学习和大规模计算 。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1) 。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等 , 本质上都是分类问题 。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支 。
最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文 。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大) 。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大 。在84.3%的数据上、Random Forest压倒了其它90%的方法 。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了 。

推荐阅读