大数据|杭电第一学期

12月准备自己的学习与期末考试 17年最后一月 目标:好好的总结这半年接触到的经典算法,看的时候参考工业界的实现如sklearn spark等的实现,重点是LR,GLM,NB,KNN; SVM,DT,ensemble(Tree Base:adaboost rf, gbdt,xgboost) ; unsupervised Learning 1.Matrix Decomposition(PCA ICA FA 字典学习,稀疏表示) 2. clustering: kmeans DBSCAN
第三周和第四周准备期末考试算法,数字图像,模式识别,计算机网络 上午一个,下午一个
最后一周
就像我以前一样.做东西虎头蛇尾,最后又开始无心看书,不能一直这样,这种状态延续了好几周了
现在弄清楚后面要复习的东西的提纲:
模式识别 :比较容易
计算机网络
数字图像
算法
周二:上午,数字图像(图像增强)下午:算法1点半开始(动态规划剩余部分,看基础知识和两三个经典题) 然后回溯法,晚上:模式识别
周三:上午:计算机网络进行到PPT的ARP,下次继续ARP,
然后再去看作业题 和 复习资料下午:算法回溯法
周四:上午 模式识别 三个半天解决这一课,这是第一个; 今天上午准备:大的知识点,难点攻克, 下一次在准备小的知识点下午:算法2-3-4题目 下午晚上: 数字图像 PPT和经典问题
周五:

第三周:准备期末考试 晚上除了上课就是作比赛,总结思路 周一:计算机网络算法
周二: 开会
周三: 网络
周四:网络tcp,三次握手,四次握手,数据包传输,晚上动态规划全部完成,
周五:上午:网络tcp剩下的东西,下午回溯法 晚上,算法复习
第二周:上周后几天又颓废了 这周重新计划 主要任务:1.传统算法复习应该开始 2.bayes KNN SVM这周要尽量结束,还有后面树算法,非监督的聚类和降维 后几个应该没太多时间去做了 ,前两个,周一就必须结束 3.DL在EEG等上的应用总结 周一一天与周二上午都要做.这周应该不讲,然后,每天下午都要做这个总结 4.哎,移动推荐算法算是太监了吗.这样很不好.不能这样,但是又没有办法,要不就只能每天10点-12点去做这个,嗯,就这样,10天 20小时,做成啥样就啥样,后几天就开始看答案
星期一:全体,总结DL,做PPT,自编码机 CNN LSTM DBN等应用,理出一个思路来,下午安排出下面一周的计划,晚上模式识别课上把贝叶斯和KNN好好看看,然后回来再总结,10点前完成工作
星期二:上午DL CNN结束, 下午:贪心算法,KNN算法,准备开始SVM 晚上:开始看参考源码
星期三:上午:KNN,svm开始晚上:参考源码,看下别人的思路
星期四: 四级
星期五:四级
第一周 算法LR,GLM,NB,KNN
1.DL最前端的应用 2.DL在EEG和生理电信号的应用 3.DL在语音上关于情绪识别的应用
周一:上午 LR下午:DL最前端应用 晚上:上课的时候继续来看上午的LR,下课后竞赛 周二周三:上午:LR 多分类,LinearModel user guide,GLM下午: 论文晚上: 两周内结束移动推荐算法的比赛 周四:上午:贝叶斯分类与回归(GLM); Knn 分类 回归下午晚上 11月份可视化:seaborn库的使用接触了一点,可视化还有很长的路要走,但是不知道该怎么走
任务总览:自编码机流型学习深度学习总结降维概率图(采样方法)SQLhadoopspark 11月26 11月底,12月初 新的一个月 周计划1:这个月来试点新的计划, 英语听说读的能力,拟定每天6点起床,11点往回走,12点睡觉,每天保持六小时睡眠,中午休息 ,晚饭后休息
英语具体计划0.,学发音,这周重点从音标开始 1.单词记忆,中午,晚上各复习一次2.听VOA 读VOA 录下来,看有什么问题 3.用老友记和老友记里面的台词剧本来练习英语
周计划2:天池,移动推荐算法重新开始,从Titanic上面学习经验
周计划3:算法相关,每天两道算法题,雷打不动,完成不了,就11点半回去
周计划4:读闲书,闲读书,
周计划5:trick Sql这周趁每天的晚上10点-11点期间完成大部分工作 ; 算法作业,每天一道题-两道题,在中午饭后,下午饭前饭后或者晚上 ;
周一:上午: 特征工程理论相关的总结; 梳理Evernote,得出下阶段计划下午:kaggle Titanic模型融合,最后做一些简单的特征工程晚上:Sql
周二:早上音标继续,老友记第一集的朗诵; 上午,算法开始回顾,回归与分类,各种算法的优劣点,必要的推导,回顾基础下午: MBA课程开始试着学习晚上:sql习题开始做点,算法两道题
周三:上午:总结算法,继续看书,找Blog,收集材料[目前重点在于收集,之后是总结,再之后就是侧重各个模型直接的对比]下午:重新开始移动推荐算法的比赛,总结思路,看前面的资料,重新开始晚上 :网络(上课带着笔记,大体理下网络讲了什么,该学什么,上课睡一会,算法动态规划), Sql命令(上完网络后), 算法两道题(10点前后开始)
周四:上午: 算法总览,下午:继续做base model晚上:(主任务待定)动态规划,sql 前7章总结,关键词;
11月20日第四周:
检讨状态,一直起起落落,在堕落与懊恼中循环,游戏在安装与卸载中往复,这周要紧张起来,找回状态,把手里的任务都完成,再去寻找新的任务点11
数字图像两次作业,算法全部前面的课程与作业, 网络复习
周一:上午:集成学习 ,今天必须完成总结 然而并没有完成,晚上继续补上; 下午:kaggle houseprice,继续阿里天池大数据的比赛, 从今天开始每天提交一次,自己学习的过程就是想着去填一个坑,然后又发现很多新的坑,有的时候还能记得最初的目标,大部分时间就在坑里出不来了.乐此不疲, 回去弄好houseprice问题,两个问题同时进行; 晚上孔博的课程 ; 上课回来,houseprice与集成学习的理论学习
周二:上午:集成学习,模型融合 ; 开会,整理印象笔记里面的东西 ; 晚上继续竞赛, 图像的作业与复习计划; 可视化,pandas文档,
读书计划: 原则是每天除了固定的两大任务,要每天同时读两本书,
目前阶段:数据天才 与 python sql后面以后慢慢补的(hadoop爬虫shell Excel 分布式)
【大数据|杭电第一学期】周三:adaboost推导过程,与gdbt学习,明天争取完成 ,adaboost推导跳过了,gdbt部分看完了; 下午:继续略读图书,完善kaggle Titanic比赛, 了解推荐系统,准备下一步开始天池的比赛
晚上继续下午工作,争取将准确率提升到80%,结束这个部分
周四:上午:bagging 与 rf集成学习应该告一段落, 加上模型融合等补充; Titanic竞赛今天结束,参考所有资料列出后面可以优化的方法并实现; 晚上算法第一二章复习,结合算法导论与算法第四版; 额外学习sql命令,sklearn Document
周五:上午: 集成学习类算法落地,sklearn实现的细节, 各个参数的意义,如何调参,如何应用,在何等情况下会好用,考虑单个模型调参 与; 下午:特征工程,依据两个帖子整理数据的特征, 多个模型融合的问题来提高准确率;
周末:周六上:回顾笔记 以前写到的各种算法的补充和拓展纲要,复习记忆,整理浏览器书签,印象笔记
周日下:清理标签,继续周六工作,给出下周的计划纲要,数字图像处理的作业
第三周:LSTM应用,数据挖掘MLP CNN RNN LSTM 公式推导
11月13号 总结RNN LSTM
11月14号; 下一阶段ICA,流行学习,LSTM论文晚上:数据挖掘竞赛与题目,书籍
11月15号:上午算法ICA, LSTM论文 ; 下午:数据挖掘竞赛 晚上:流型学习?
11月16号:上午ICA结束,了解流行学习,下午折腾竞赛
11月17号:上午:集合学习; 下午竞赛
周末:比赛,集成学习,算法作业
第二周:ppca,ica,因子模型,自编码机CNN,RNN总结周末ppt; 流型学习

11月6号: 回顾pPCA 然后 因子分析模型, PPCA,ICA 串联; 自编码机开头 ; 晚上算法
11月7号:自编码机算法回顾总结;
11月8号:上午:自编码器 原理学习,笔记总结,分类算法优化; 晚上动态规划; 下午 MLP,CNN rnn总结ppt ;
11月9号:上午CNN,ppt总结; 竞赛; 概率图 深度生成模型 思路总结
第一周:高斯判别分析 和 高斯混合模型与EM最小平方法和逻辑回归到多分类推广
10月30号 :PCA推导完成,ICA 学习与推导; 深度学习 与概率图的概述)(写了一半);写天池大数据的报告(还没开始);
10月31号: PCA应用SVD线性代数回头补充(二次型,对角化等)ICALDA流型学习自编码机; 梳理回归与分类 ; 花时间看看那篇crcv
11月1号:LDA ICA 继续; 了解自编码机; RNN LSTM 知识总结;

11月4号: 线性代数自编码机 ;
11月5号: 下午:高斯混合,高斯判别,EM,ppca求解; 晚上前:算法课补充; 晚上后:比赛; 看论文
10月份 10月23号这一周,,

周一 。kaggle Fisher开始做,预计这一周; 深度学习继续学习;机器学习方面:概率图;连续潜在变量,PCA;AdaBoost,GBDT,随机森林; 学习下Keras,看懂kaggle demo;
周二。开会
周三。 上午,特种工程,降维;晚上网络工程;
周四。点1:集成学习方法;点2:降维之 PCA、t-SNE 和自编码器,点3:概率图理论; (理论基础,一个点一个点的来攻破)
晚上,张志华的机器学习;机器学习应用工程;
斯坦福CS231n Spring 2017开放全部课程视频(分享自知乎网)https://zhuanlan.zhihu.com/p/28488268?深入浅出:GAN原理与应用入门介绍(分享自知乎网)https://zhuanlan.zhihu.com/p/28731033?utm_source=qq&utm_medium=social 周五。集成学习已看完,boost与bagging 进一步加深了了解,但是还是不能说懂;
周末。周日,
1.总结深度学习各个技术的应用,PCA,ICA,自编码机学习
2.推荐系统学习
3.天池大数据查找资料
4.爬虫???
10月16号这一周
CV 方面深入学习?
http://blog.csdn.net/v_july_v/article/details/52810219
http://blog.csdn.net/v_july_v/article/details/71598551
周一:上午:CNN ,RNN,LSTM 总结;结合论文和书;下午:重点放在应用与必须的数据科学理论;1.最优化(线搜索方面有些一知半懂,没去听课,感觉压力很大);试试kaggle 与其他学习的路线; 信号与系统,数字信号处理的学习;
周二:CNN总结,kaggle图像的竞赛;下午学习算法;晚上:张志华机器学习导论+信号与系统
周三:CNN论文,kaggle开始做,
10月9号这一周
国庆结束,师兄回归,学期正式开始
7.8号周末在实验室,准备一下,开始新的一周 1.TensorFlow CNN 原理与实现 2.上周课程总结和梳理3.浏览器收藏梳理
周一:上午 : LeetCode,论文阅读,深度学习RNN 【tensorflow 的可视化,tensorflow的加速】 深度学习如何学习,如何应用,有什么好的开源项目 中午:blog下午:几个点 (SVM数学推导求最优解 拉格朗日 KTT,logistic 极大似然推导),深度学习RNN晚上 PR,贝叶斯
周二:上午:RNN。lstm应用实现读论文。下午:传统深度学习最后一部分,解决昨天留下的问题+ 卷积网络在于图像等领域的应用, RNN LSTM在于NLP领域的应用,上午没有时间读论文,下午读昨天的论文
9月份 最后一段时间,1.TensorFlow 与深度学习 进度要快点2.了解关于脑电情绪识别在时序信号,深度学习等方面的应用

9月25这一周
1.ng深度学习课程 加快进度,尽量保证两天一周的课程,一天学习,一天做作业
2.TensorFlow 两天一章
3.论文,每天保证有时间读论文,总结
周一,1/5 深度学习完结TensorFlow 卷积前面内容完结晚上机器学习,计划下一阶段如何学习下午做好论文计划
周二,拟制定了完善的计划和时间表,希望以后能够比较严格的按照这个执行,英语流利说与单词记忆;上午找论文,读论文;微专业课程;mnist手写字体库的继续学习;下午的编程实践,制定目标;确定这周的kaggle题目
周三,单词继续,上午读论文,带着书去上课,TensorFlow 卷积网络,深度学习;下午实现mnist;完成二.1课程作业;晚上。上课
周四,上午两小时论文,ang课程,下午优化mnist,卷积网络, 准备kaggle和学习语言的事情,
周五,昨天的事情都没能做,今天继续昨天的事情,计划下以后的路线问题;
路线:下面一个月以深度学习为主,包括cnn,rnn等网络,基本能够应用;传统机器学习方面放缓,认真听课,找出自己以后应该加强的点;
PS: hadoop spark 等工具;计算机基础知识;算法数据结构Leetcode;机器学习理论基础;机器学习项目实践;
周日10月1:今天没有出去玩,留在了实验室,心中还是有很多的迷茫。今天是周日,用来把前面这一周没有完成的都弄完吧。
面试题一些例子:

  • 用Map Reduce implement矩阵乘法
  • NLP相关的encoding问题 (CBOW vs Skipgram)
  • 不同的activation function的pros/cons
  • Gradient Boosting 相关问题
  • Random Forest 相关问题
  • SVM的Gaussian Kernel 的 dimension
  • 用Regex分析文本
  • 如何用python/R 读取JSON, 并且洗数据
  • 用C++ implement Monte Carlo
  • coding: 用DFS走迷宫
    • 用过哪些DL的library呀?
    • 现在的DL 的state of art model有哪些呀?
    • 如果如理diminishing gradient的问题呀?
    • 如果同时处理文本文档+图片呀?
    • 如果防止overfitting呀?
    • 如何pre-train model呀?
    • 能否自己在服务器上用distributed computing部署一个现有的model 呀?
    面试中遇到的机器学习算法主要有线性回归、朴素贝叶斯、决策树、GDBT、随机森林、Adaboost、逻辑回归(和Softmax)、SVM、神经网络和卷积神经网络。遇到很多次让写逻辑回归的极大似然估计的推导。SVM会问思想,我SVM掌握的太少答的不好。神经网络会问随机梯度下降和反向传播,要写出式子来的。卷积神经网络就遇到过一次,当时不知道后来上网学习了一下挺有意思的。
    损失函数、过拟合、算法的优缺点是经常问到的点,另外遇到的其他问题有这么几个:机器学习算法中哪些是回归算法哪些是分类的。他们的产品要做用户流失预测须要提取哪些特征的。其他我还遇到过倒排索引、推荐算法之类的问题。
转载于:https://www.cnblogs.com/bigjelly/p/7567985.html

    推荐阅读