一般用哪些工具做大数据分析?


谢邀~
本君自荐一下 。我们的产品诸葛io(www.zhugeio.com)可能更偏向于非技术人员的业务分析 。比如产品经理、市场、运营人员 。
从某种意义上也具有可视化分析的特性 。但区别于其他工具的是我们面向互联网产品推广运营过程中的分析需求定义了一些分析模型 。比如事件、漏斗、自定义留存、粘性、用户分群等 。很多工具可以任意拖拽去做分析 。但很多时候客户也会因为太灵活反而有一定门槛 。所以 。当一些模型被标准化以后 。基本可以解决互联网产品设计、推广、运营、营销过程中的绝大多数分析需求 。这也大大提供了业务人员的工作效率 。

一般用哪些工具做大数据分析?

文章插图
附图几张:
一般用哪些工具做大数据分析?

文章插图
一般用哪些工具做大数据分析?

文章插图
一般用哪些工具做大数据分析?

文章插图
一般用哪些工具做大数据分析?

文章插图
关于一些分析模型 。我们整理出了常用的八大数据分析模型 。过去两个月 。每周二都会更新一个模型 。很多模型大家都比较了解 。但可能他又增加了一些新特性 。感兴趣可戳链接:
八大数据分析模型之——用户模型(一)
八大数据分析模型之——事件模型(二)
八大数据分析模型之——漏斗模型(三)
八大数据分析模型之——热图模型(四)
八大数据分析模型之——自定义留存分析模型(五)
八大数据分析模型之——粘性分析模型(六)
八大数据分析模型之——全行为路径模型(七)
......
当然 。我们也面向有高级使用需求的用户 。比如数据分析师或是有一定数据查询能力的人员提供了SQL查询功能 。因为还有20%的分析需求无法通过标准的模型解决 。需要自己去定义 。
数据都是开放的 。原始数据的导出 。实时数据的调用在诸葛都是支持的 。数据来源于客户 。数据属于客户 。
1、前端表格导出
2、SQL查询平台支持
3、查询API按需调用
4、直连数据仓库
5、Kafka实时订阅
6、原始数据全量导出
一般用哪些工具做大数据分析?

文章插图
以上~
其他观点:
有很多开源的产品 。如果有研发能力的 。可以直接使用开源产品来自己搭建数据分析平台 。开发自己的数据分析软件 。不过这样需要较强的技术能力 。付出较大的成本 。
也可以使用东软平台云(https://cloud.neusoft.com/)的DataViz可视化数据分析软件 。这样的专业的尅时候数据分析软件 。不需要专业的分析师和技术人员 。业务人员通过简单的拖拽就可以实现数据分析 。还支持多种数据源 。支持动态传统图表和高级可视化图表 。多种科技、商务主题自由切换 。支持拖拽图表组合布局 。设置图表联动交互 。分析结果支持适应各种分辨率的大屏展示 。
一般用哪些工具做大数据分析?

文章插图
其他观点:
一般用哪些工具做大数据分析?

文章插图
MongoDB—— 一种流行的 。跨平台的面向文档的数据库 。
Elasticsearch——专为云而构建的分布式REST风格搜索引擎 。
Cassandra——一个开源的分布式数据库管理系统 。最初由Facebook开发 。被设计用来处理横跨多个商用服务器的大量数据 。提供了无单点故障的高度可用性 。
Redis—— 一个开源的(BSD许可) 。内存数据结构存储 。作为数据库、缓存和消息代理使用 。
Hazelcast——基于Java的开源内存数据网格 。
EHCache——一种被广泛使用的开源Java分布式缓存 。用于通用缓存、Java EE和轻量级容器 。Ehcache相关介绍
Hadoop——用Java编写的一个开源软件框架 。用于分布式存储和对在计算机集群上的超大型数据集的分布式处理 。
Solr——一个开源的企业搜索平台 。用Java编写的 。来自于ApacheLucene项目 。
Spark——Apache Software Foundation中最活跃的项目 。一个开源的集群计算框架 。
Memcached—— 一个通用的分布式内存缓存系统 。
Apache Hive——提供了Hadoop之上类似于SQL的层 。
Apache Kafka—— 一个高通量、分布式的发布-订阅式消息系统 。最初开发在LinkedIn上 。Windows上脱离Cygwin运行Apache Kafka
Akka—— 一个工具包和运行时 。用于在JVM上构建高度并行的、分布式的、有弹性的消息驱动的应用程序 。

推荐阅读