如何系统地学习数据挖掘磨刀不误砍柴工 。在学习数据挖掘之前应该明白几点:
数据挖掘目前在中国的尚未流行开,犹如屠龙之技 。
数据初期的准备通常占整个数据挖掘项目工作量的70%左右 。
数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术 。
数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)
数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域 。
数据挖掘项目通常需要重复一些毫无技术含量的工作 。
如果你阅读了以上内容觉得可以接受,那么继续往下看 。
学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁 。技
术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司) , 一般人没有这个精力和时间全方位的掌握所有技术细节 。但是技术在结合
行业之后就能够独当一面了 , 一方面有利于抓住用户痛点和刚性需求 , 另一方面能够累计行业经验 , 使用互联网思维跨界让你更容易取得成功 。不要在学习技术时想
要面面俱到,这样会失去你的核心竞争力 。
一、目前国内的数据挖掘人员工作领域大致可分为三类 。
1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告 。
2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析 。
3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用 。
二、说说各工作领域需要掌握的技能 。
(1).数据分析师
需要有深厚的数理统计基?。?但是对程序开发能力不做要求 。
需要熟练使用主流的数据挖掘(或统计分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等 。
需要对与所在行业有关的一切核心数据有深入的理解 , 以及一定的数据敏感性培养 。
经
典图书推荐:《概率论与数理统计》、《统计学》推荐David
Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用
》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures
Companion》等 。
(2).数据挖掘工程师
需要理解主流机器学习算法的原理和应用 。
需要熟悉至少一门编程语言如(Python、C、C、Java、Delphi等) 。
需要理解数据库原理 , 能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等) , 能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好 。
经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C》、《数据结构》等 。
(3).科学研究方向
需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering) 。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点 。
相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持 , 更适合进行统计计算分析研究 。虽然目前在国内流行度不高 , 但是强烈推荐 。
可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群 。
需要广而深的阅读世界著名会议论文跟踪热点技术 。如KDD , ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data , IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等 。
可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力 。如Sig KDD,Kaggle: Go from Big Data to Big Analytics等 。
可以尝试为一些开源项目贡献自己的代码 , 比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目) 。
经
典图书推荐:《机器学习》
《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine
Learning: A Probabilistic Perspective》《Scaling up Machine Learning :
Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise
Miner : A Case Study Approach》《Python for Data Analysis》等 。
三、以下是通信行业数据挖掘工程师的工作感受 。
真
正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的 , 有了爱好才可以愿意钻研,有了不错的沟通能力 , 才可以正确理解业务问题 , 才能正确把
业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持 。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的
核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力 。
说到这里可能很多数据仓库专家、程序员、统计
师等等都要扔砖头了,对不起 , 我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间
有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看,
比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任 。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本
的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过 , 统计技能是应该掌握的,这对一个人的迷你项目
很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至
在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技
师、甚至单纯的一个挖掘技术专家,都是无法胜任的) 。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起
进行数据挖掘项目实践,你说没有好的沟通能力行吗?
数据挖掘能力只能在项目实践的熔炉中提升、升华 , 所以跟着项目学挖掘是最有效的捷径 。
国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果 。我不知道国内的数据挖掘学生是怎样学的,
但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间 , 很没有效率 。
另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在
报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面 , 国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用
就只能算是小规模的 , 比如很多大学都有些相关的挖掘课题、挖掘项目 , 但都比较分散 , 而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为
这是历史发展的必然 。
讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何
关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆
盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧 。我对华院分析印象最深的一点就是2002年这个公司白手起
家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀 。他们最开始都是用EXCEL处理数据,用肉眼比较
选择比较不同的模型,你可以想象这其中的艰难吧 。
至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费套餐的制订、客户流失模
型、不同服务交叉销售模型、不同客户对优惠的弹性分析、客户群体细分模型、不同客户生命周期模型、渠道选择模型、恶意欺诈预警模型,太多了,记?。?从客户
的需求出发,从实践中的问题出发,移动中可以发现太多的挖掘项目 。最后告诉你一个秘密 , 当你数据挖掘能力提升到一定程度时 , 你会发现无论什么行业,其实数
据挖掘的应用有大部分是重合的相似的,这样你会觉得更轻松 。
四、成为一名数据科学家需要掌握的技能图 。(原文:Data Science: How do I become a data scientist?)
如何学好mySQLmysql是数据库,你应该先理解数据库的基本概念,然后学SQL语句 。
之后学习怎么用面向对象的方法建立各个实体之间的关系,再映射成表 。
自学数据库MySQL需要注意哪些方面一、熟悉MySQL数据挖掘mysql怎么学的运行环境
MySQL数据库是在Linux环境下运行的数据挖掘mysql怎么学 , 建议先熟练Linux系统 。选定好架构模式之后就可以开始进入程序开发和数据处理的环节 。
二、有扎实的数据库理论知识
MySQL作为关系型数据库数据挖掘mysql怎么学,在实际的应用中也要学会分析存储数据的关系型数据结构数据挖掘mysql怎么学,关系操作集合等 。只有对这些内容有一个明确的认识 , 在设计数据库字段、表与表的关系才能考虑周全,避免出现错误 。
三、熟练的SQL语言运用
任何一种数据库的学习,包括MySQL , SQL语句都是位于核心部分的内容 。需要注意的是SQL语言的使用要力求简明扼要,能用一个select搞定的问题并不需要写更多的union 。所以在SQL语言的应用方面要注意高效 。
数据分析和数据挖掘学要哪些专业知识在学数据分析之前,数据挖掘mysql怎么学我们首先要明确知识架构 。一般来说 , 数据分析师需要的技能就是这些:需要掌握SQL数据库的基本操作,同时掌握基本的数据管理 。会用Excel和SQL做基本的数据提取、分析和展示数据挖掘mysql怎么学;会用脚本语言进行数据分析,Python或者R数据挖掘mysql怎么学;有获取外部数据的能力加分 , 比如爬虫;会基本的数据可视化技能,能撰写数据报告;熟悉常用的数据挖掘算法(数据分析算法包括回归分析、决策树、分类、聚类方法等) 。这些技能掌握了,就能够入门数据分析师了 。
数据挖掘需要的技能:1.需要理解主流机器学习算法的原理和应用 。2.需要熟悉至少一门编程语言如(Python、C、C、Java、Delphi等) 。3.需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好 。
更多数据挖掘的信息,推荐咨询CDA数据分析师的课程 。CDA数据分析师认证的课程以项目调动学员数据挖掘实用能力的场景式教学为主 , 在讲师设计的业务场景下由讲师不断提出业务问题,再由学员循序渐进思考并操作解决问题的过程中,帮助学员掌握真正过硬的解决业务问题的数据挖掘能力 。点击预约免费试听课 。
MySQL能去哪里学习?首先 , 学习基本的SQL语法 。完成这个后,数据挖掘mysql怎么学你就可以编写SQL语句了 。这一步推荐:W3Schools的 SQL 教程 。
其次 , 学习数据库的主要功能和使用方法,比如用户相关或者权限相关等等 。
数据挖掘mysql怎么学我推荐两本书:
一、《MySQL必知必会》 这本书讲的非常全,从基本概念,到查询到插入新建表,用户的管理,都有具体的例子,非常适合没有任何基础的同学来学习Mysql,总之这本书学习的方法就是:1、十分钟了解下数据库的基本概念 2、找到练手的数据库 3、对照着上面的内容去敲 。本书里也有大量的内容是讲sql的,可以结合w3c的sql教程一起,有取舍地看 。
二、《数据库系统概念》这本书是dba必看的 。看完这些并且实践 思考之后,可以算入门了 。接下来对于希望深入学习的童鞋我推荐几本书(很多大神都这么推荐),《高性能MySQL(第3版)》、 《MySQL技术内幕(第4版)》,《MySQL技术内幕 InnoDB存储引擎》,《深入理解MySQL》还有Mysql的官网 。读完这些东西,再加些丰富的经验,理论上来讲就具备DBA的水平了 。十分推荐阅读Planet MySQL上汇总的博客,特别是Percona's MySQLInnoDB performance and scalability blog但是,正如我开头所言的 。
面对问题的时候一定要积极思考数据挖掘mysql怎么学!比如:我问数据挖掘mysql怎么学你,面对一个并发量比较高的场景,如何配置mysql的连接数数据挖掘mysql怎么学?你可能会回答:“哦,就是调高max_connection的数值吧 。”那,你有没有思考过调到多少是最合适的呢?为什么这样设置就最合适呢?也许你会回答:“恩我知道,可以看系统之前的max_used_connection的数值,然后来设置 。也可以调高back_log的值 。”那你有没有思考过 , max_connection连接数太高会有什么不好的影响呢?back_log设置的太高有什么不好的地方呢?max_connect的上限其实是取决于mysql能获得的文件描述符的数量,也就是说你就算设置成10000,最后也是没用的,系统会根据机器的情况自动调低 。也许你会回答:“恩我知道,设置太高 , 会有系统开销...”那你有没有思考过 , 这些开销具体是什么呢?是什么工作导致了需要这些内存开销?也许你还会回答 , 在连接创建的时候,会立刻为它分配连接缓冲区以及查询缓冲区,这些都会吃内存 。那你有没有思考过,占据的资源具体是多少呢?取决于哪些因素呢?好了,我们先结束这个问题 。回到知乎的问题上来,其实我说了这么多 , 就是表达要如何自学mysql 。所以的所以,你必须不断思考,才能在工作中面对具体场景的时候 , 非常淡定地推断:“哦,一定是这里出了问题 。应该怎么怎么做 。”面对问题,拿出打破砂锅问到底的精神,先思考一番,给出自己的假设,不要着急地去找度娘,谷歌 。思考过后,带着你的推断或者答案,大胆地去搜索吧!去看看别人的见解,去看看官方的描述!这才是一个工程师应有的态度 。最后我想给出一些有价值的学习资料 。可以省去一些时间 。-电子书:我认为多看书还是有好处的 。有些书值得反复看许多遍,有时候只看一遍无法深刻理解吸收,思考也不够充分
【数据挖掘mysql怎么学 数据挖掘怎么自学】关于数据挖掘mysql怎么学和数据挖掘怎么自学的介绍到此就结束了 , 不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站 。
推荐阅读
- 射击类fps游戏,射击类 游戏
- 视频号卖货怎么玩的快,视频号卖货赚钱吗
- 昆明专业sap咨询服务,昆明专业sap咨询服务有限公司
- linux枚举usb命令,linux usb重新枚举
- php建立数据库的表 php做数据库
- 关于c语言格式化输出日历的函数的信息
- ChatGPT底层训练,中文CHATGPT的训练
- chatgpt已经全负荷运转,负载处于
- 利用php和数据库连接 php与数据库链接