另外还可以考虑近似计算,也就是我们可以通过结合自然语言属性,只将那些真正实际中出现最多的那些词作为一个字典 , 使得这个规模可以放入内存 。
php能做大数据分析吗数据挖掘现在用的比较多的是python 。
数据分析这块现在用的比较多的是scala 。
php不适合做大数据分析
php采集大数据的方案1、建议你读写数据和下载图片分开,各用不同大数据统计php的进程完成 。
比如说,取数据用get-data.php , 下载图片用get-image.php 。
2、多进程大数据统计php的话,php可以简单的用pcntl_fork() 。这样可以并发多个子进程 。
但是我不建议你用fork,我建议你安装一个gearman worker 。这样你要并发几个,就启几个worker,写代码简单,根本不用在代码里考虑thread啊,process等等 。
3、综上,解决方案这样大数据统计php:
(1)安装gearman worker 。
(2)写一个get-data.php,在crontab里设置它每5分钟执行一次,只负责读数据,然后把读回来的数据一条一条的扔到 gearman worker的队列里;
然后再写一个处理数据的脚本作为worker , 例如叫process-data.php,这个脚本常驻内存 。它作为worker从geraman 队列里读出一条一条的数据,然后跟你的数据库老数据比较,进行你的业务逻辑 。如果你要10个并发 , 那就启动10个process-data.php好了 。处理完后,如果图片地址有变动需要下载图片,就把图片地址扔到 gearman worker的另一个队列里 。
(3)再写一个download-data.php,作为下载图片的worker,同样,你启动10个20个并发随便你 。这个进程也常驻内存运行,从gearman worker的图片数据队列里取数据出来,下载图片
4、常驻进程的话,就是在代码里写个while(true)死循环,让它一直运行好了 。如果怕内存泄露啥的,你可以每循环10万次退出一下 。然后在crontab里设置,每分钟检查一下进程有没有启动,比如说这样启动3个process-data worker进程:
* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php/dev/null 21'
* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php/dev/null 21'
* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php/dev/null 21'
不知道你明白了没有
关于大数据统计php和大数据统计专业学什么的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站 。
推荐阅读
- jquery动态修改json数据,jquery动态改变样式
- 路由器用什么样的管理器,路由器用哪个
- js的计算误差,js减法有误差
- 感情电台直播素材,情感电台素材在哪里找
- c语言比较数字大小头函数 c语言比较数字大小思路
- 影视大全纯净版下载,影视大全纯净版下载免费观看电视剧
- 经营旅店类游戏,经营旅店的小游戏
- sap移动类型355,SAP移动类型350
- 乐视电视pro什么意思,乐视pro3百科