决策树分类java代码 决策树算法java代码( 五 )


该项目主要由五部分组成:
1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材 , 被设计通过奖励调查者-开始的 , 长期 的调查在可升级的高性能计算中来增加创新意识流 , 通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营 , 和来提供必需的基础架构来支 持这些调查和研究活动;
5、信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位 。
3、 Storm
Storm是自由的开源软件 , 一个分布式的、容错的实时计算系统 。Storm可以非常可靠的处理庞大的数据流 , 用于处理Hadoop的批量数据 。Storm很简单,支持许多种编程语言 , 使用起来非常有趣 。Storm由Twitter开源而来 , 其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等 。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议 , 一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等 。Storm的处理速度惊人:经测 试 , 每个节点每秒钟可以处理100万个数据元组 。Storm是可扩展、容错 , 很容易设置和操作 。
4、 Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法 , Apache软件基金会近日发起了一项名为“Drill”的开源项目 。Apache Drill 实现了 Google’s Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍 , “Drill”已经作为Apache孵化器项目来运作 , 将面向全球软件工程师持续推广 。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速) 。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的 。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等 。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言 。
5、 RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术 。它数据挖掘任务涉及范围广泛,包括各种数据艺术 , 能简化数据挖掘过程的设计和评价 。
功能和特点
免费提供数据挖掘技术和库
100%用Java代码(可运行在操作系统)
数据挖掘过程简单 , 强大和直观
内部XML保证了标准化的格式来表示交换数据挖掘过程
可以用简单脚本语言自动进行大规模进程
多层次的数据视图 , 确保有效和透明的数据
图形用户界面的互动原型
命令行(批处理模式)自动大规模应用
Java API(应用编程接口)
简单的插件和推广机制

推荐阅读