大数据|杭电第一学期面试|网络

12月准备自己的学习与期末考试 17年最后一月目标:好好的总结这半年接触到的经典算法,看的时候参考工业界的实现如sklearn spark等的实现,重点是LR,GLM,NB,KNN; SVM,DT,ensemble(Tree Base:adaboost rf, gbdt,xgboost) ; unsupervised Learning 1.Matrix Decomposition(PCA ICA FA 字典学习,稀疏表示) 2. clustering: kmeans DBSCAN
第三周和第四周准备期末考试算法,数字图像,模式识别,计算机网络上午一个,下午一个
最后一周
就像我以前一样.做东西虎头蛇尾,最后又开始无心看书,不能一直这样,这种状态延续了好几周了
现在弄清楚后面要复习的东西的提纲:
模式识别 :比较容易
计算机网络
数字图像
算法
周二:上午,数字图像(图像增强)下午:算法1点半开始(动态规划剩余部分,看基础知识和两三个经典题) 然后回溯法,晚上:模式识别
周三:上午:计算机网络进行到PPT的ARP,下次继续ARP,
然后再去看作业题和复习资料下午:算法回溯法
周四:上午模式识别三个半天解决这一课,这是第一个; 今天上午准备:大的知识点,难点攻克, 下一次在准备小的知识点下午:算法2-3-4题目下午晚上: 数字图像 PPT和经典问题
周五:

第三周:准备期末考试晚上除了上课就是作比赛,总结思路周一:计算机网络算法
周二: 开会
周三: 网络
周四:网络tcp,三次握手,四次握手,数据包传输,晚上动态规划全部完成,
周五:上午:网络tcp剩下的东西,下午回溯法晚上,算法复习
第二周:上周后几天又颓废了这周重新计划主要任务:1.传统算法复习应该开始 2.bayes KNN SVM这周要尽量结束,还有后面树算法,非监督的聚类和降维后几个应该没太多时间去做了 ,前两个,周一就必须结束 3.DL在EEG等上的应用总结周一一天与周二上午都要做.这周应该不讲,然后,每天下午都要做这个总结 4.哎,移动推荐算法算是太监了吗.这样很不好.不能这样,但是又没有办法,要不就只能每天10点-12点去做这个,嗯,就这样,10天 20小时,做成啥样就啥样,后几天就开始看答案
星期一:全体,总结DL,做PPT,自编码机 CNN LSTM DBN等应用,理出一个思路来,下午安排出下面一周的计划,晚上模式识别课上把贝叶斯和KNN好好看看,然后回来再总结,10点前完成工作
星期二:上午DL CNN结束, 下午:贪心算法,KNN算法,准备开始SVM 晚上:开始看参考源码
星期三:上午:KNN,svm开始晚上:参考源码,看下别人的思路
星期四: 四级
星期五:四级
第一周算法LR,GLM,NB,KNN
1.DL最前端的应用 2.DL在EEG和生理电信号的应用 3.DL在语音上关于情绪识别的应用
周一:上午 LR下午:DL最前端应用晚上:上课的时候继续来看上午的LR,下课后竞赛周二周三:上午:LR 多分类,LinearModel user guide,GLM下午: 论文晚上: 两周内结束移动推荐算法的比赛周四:上午:贝叶斯分类与回归(GLM); Knn 分类回归下午晚上 11月份可视化:seaborn库的使用接触了一点,可视化还有很长的路要走,但是不知道该怎么走
任务总览：自编码机流型学习深度学习总结降维概率图(采样方法)SQLhadoopspark 11月26 11月底,12月初新的一个月周计划1:这个月来试点新的计划, 英语听说读的能力,拟定每天6点起床,11点往回走,12点睡觉,每天保持六小时睡眠,中午休息 ,晚饭后休息
英语具体计划0.,学发音,这周重点从音标开始 1.单词记忆,中午,晚上各复习一次2.听VOA 读VOA 录下来,看有什么问题 3.用老友记和老友记里面的台词剧本来练习英语
周计划2:天池,移动推荐算法重新开始,从Titanic上面学习经验
周计划3:算法相关,每天两道算法题,雷打不动,完成不了,就11点半回去
周计划4:读闲书,闲读书,
周计划5:trick Sql这周趁每天的晚上10点-11点期间完成大部分工作 ; 算法作业,每天一道题-两道题,在中午饭后,下午饭前饭后或者晚上 ;
周一:上午: 特征工程理论相关的总结; 梳理Evernote,得出下阶段计划下午:kaggle Titanic模型融合,最后做一些简单的特征工程晚上:Sql
周二:早上音标继续,老友记第一集的朗诵; 上午,算法开始回顾,回归与分类,各种算法的优劣点,必要的推导,回顾基础下午: MBA课程开始试着学习晚上:sql习题开始做点,算法两道题
周三:上午:总结算法,继续看书,找Blog,收集材料[目前重点在于收集,之后是总结,再之后就是侧重各个模型直接的对比]下午:重新开始移动推荐算法的比赛,总结思路,看前面的资料,重新开始晚上 :网络(上课带着笔记,大体理下网络讲了什么,该学什么,上课睡一会,算法动态规划), Sql命令(上完网络后), 算法两道题(10点前后开始)
周四:上午: 算法总览,下午:继续做base model晚上:(主任务待定)动态规划,sql 前7章总结,关键词;
11月20日第四周:
检讨状态,一直起起落落,在堕落与懊恼中循环,游戏在安装与卸载中往复,这周要紧张起来,找回状态,把手里的任务都完成,再去寻找新的任务点11
数字图像两次作业,算法全部前面的课程与作业, 网络复习
周一:上午:集成学习 ,今天必须完成总结然而并没有完成,晚上继续补上; 下午:kaggle houseprice,继续阿里天池大数据的比赛, 从今天开始每天提交一次,自己学习的过程就是想着去填一个坑,然后又发现很多新的坑,有的时候还能记得最初的目标,大部分时间就在坑里出不来了.乐此不疲, 回去弄好houseprice问题,两个问题同时进行; 晚上孔博的课程 ; 上课回来,houseprice与集成学习的理论学习
周二:上午:集成学习,模型融合 ; 开会,整理印象笔记里面的东西 ; 晚上继续竞赛, 图像的作业与复习计划; 可视化,pandas文档,
读书计划: 原则是每天除了固定的两大任务,要每天同时读两本书,
目前阶段:数据天才与 python sql后面以后慢慢补的(hadoop爬虫shell Excel 分布式)
【大数据|杭电第一学期】周三:adaboost推导过程,与gdbt学习,明天争取完成 ,adaboost推导跳过了,gdbt部分看完了; 下午:继续略读图书,完善kaggle Titanic比赛, 了解推荐系统,准备下一步开始天池的比赛
晚上继续下午工作,争取将准确率提升到80%,结束这个部分
周四:上午:bagging 与 rf集成学习应该告一段落, 加上模型融合等补充; Titanic竞赛今天结束,参考所有资料列出后面可以优化的方法并实现; 晚上算法第一二章复习,结合算法导论与算法第四版; 额外学习sql命令,sklearn Document
周五:上午: 集成学习类算法落地,sklearn实现的细节, 各个参数的意义,如何调参,如何应用,在何等情况下会好用,考虑单个模型调参与; 下午:特征工程,依据两个帖子整理数据的特征, 多个模型融合的问题来提高准确率;
周末:周六上:回顾笔记以前写到的各种算法的补充和拓展纲要,复习记忆,整理浏览器书签,印象笔记
周日下:清理标签,继续周六工作,给出下周的计划纲要,数字图像处理的作业
第三周:LSTM应用,数据挖掘MLP CNN RNN LSTM 公式推导
11月13号总结RNN LSTM
11月14号; 下一阶段ICA,流行学习,LSTM论文晚上:数据挖掘竞赛与题目,书籍
11月15号:上午算法ICA, LSTM论文 ; 下午:数据挖掘竞赛晚上:流型学习?
11月16号:上午ICA结束,了解流行学习,下午折腾竞赛
11月17号:上午:集合学习; 下午竞赛
周末:比赛,集成学习,算法作业
第二周:ppca,ica,因子模型,自编码机CNN,RNN总结周末ppt; 流型学习

11月6号: 回顾pPCA 然后因子分析模型, PPCA,ICA 串联; 自编码机开头 ; 晚上算法
11月7号:自编码机算法回顾总结;
11月8号:上午:自编码器原理学习,笔记总结,分类算法优化; 晚上动态规划; 下午 MLP,CNN rnn总结ppt ;
11月9号:上午CNN,ppt总结; 竞赛; 概率图深度生成模型思路总结
第一周：高斯判别分析和高斯混合模型与EM最小平方法和逻辑回归到多分类推广
10月30号：PCA推导完成，ICA 学习与推导；深度学习与概率图的概述）(写了一半)；写天池大数据的报告(还没开始)；
10月31号： PCA应用SVD线性代数回头补充(二次型,对角化等)ICALDA流型学习自编码机; 梳理回归与分类 ; 花时间看看那篇crcv
11月1号:LDA ICA 继续; 了解自编码机; RNN LSTM 知识总结;

11月4号: 线性代数自编码机 ;
11月5号: 下午:高斯混合,高斯判别,EM,ppca求解; 晚上前:算法课补充; 晚上后:比赛; 看论文
10月份 10月23号这一周，，

周一。kaggle Fisher开始做，预计这一周；深度学习继续学习；机器学习方面：概率图；连续潜在变量，PCA；AdaBoost，GBDT，随机森林；学习下Keras，看懂kaggle demo；
周二。开会
周三。上午，特种工程，降维；晚上网络工程；
周四。点1：集成学习方法；点2：降维之 PCA、t-SNE 和自编码器，点3：概率图理论; （理论基础，一个点一个点的来攻破）
晚上，张志华的机器学习；机器学习应用工程；
斯坦福CS231n Spring 2017开放全部课程视频（分享自知乎网）https://zhuanlan.zhihu.com/p/28488268?深入浅出：GAN原理与应用入门介绍（分享自知乎网）https://zhuanlan.zhihu.com/p/28731033?utm_source=qq&utm_medium=social 周五。集成学习已看完，boost与bagging 进一步加深了了解，但是还是不能说懂；
周末。周日，
1.总结深度学习各个技术的应用，PCA，ICA，自编码机学习
2.推荐系统学习
3.天池大数据查找资料
4.爬虫？？？
10月16号这一周
CV 方面深入学习？
http://blog.csdn.net/v_july_v/article/details/52810219
http://blog.csdn.net/v_july_v/article/details/71598551
周一：上午：CNN ，RNN，LSTM 总结；结合论文和书；下午：重点放在应用与必须的数据科学理论；1.最优化（线搜索方面有些一知半懂，没去听课，感觉压力很大）；试试kaggle 与其他学习的路线；信号与系统，数字信号处理的学习；
周二：CNN总结，kaggle图像的竞赛；下午学习算法；晚上：张志华机器学习导论+信号与系统
周三：CNN论文，kaggle开始做，
10月9号这一周
国庆结束，师兄回归，学期正式开始
7.8号周末在实验室，准备一下，开始新的一周 1.TensorFlow CNN 原理与实现 2.上周课程总结和梳理3.浏览器收藏梳理
周一：上午： LeetCode，论文阅读，深度学习RNN 【tensorflow 的可视化，tensorflow的加速】深度学习如何学习，如何应用，有什么好的开源项目中午：blog下午：几个点（SVM数学推导求最优解拉格朗日 KTT，logistic 极大似然推导），深度学习RNN晚上 PR，贝叶斯
周二：上午：RNN。lstm应用实现读论文。下午：传统深度学习最后一部分，解决昨天留下的问题+ 卷积网络在于图像等领域的应用， RNN LSTM在于NLP领域的应用，上午没有时间读论文，下午读昨天的论文
9月份最后一段时间，1.TensorFlow 与深度学习进度要快点2.了解关于脑电情绪识别在时序信号，深度学习等方面的应用

9月25这一周
1.ng深度学习课程加快进度，尽量保证两天一周的课程，一天学习，一天做作业
2.TensorFlow 两天一章
3.论文，每天保证有时间读论文，总结
周一，1/5 深度学习完结TensorFlow 卷积前面内容完结晚上机器学习，计划下一阶段如何学习下午做好论文计划
周二，拟制定了完善的计划和时间表，希望以后能够比较严格的按照这个执行，英语流利说与单词记忆；上午找论文，读论文；微专业课程；mnist手写字体库的继续学习；下午的编程实践，制定目标；确定这周的kaggle题目
周三，单词继续，上午读论文，带着书去上课，TensorFlow 卷积网络，深度学习；下午实现mnist；完成二.1课程作业；晚上。上课
周四，上午两小时论文，ang课程，下午优化mnist，卷积网络，准备kaggle和学习语言的事情，
周五，昨天的事情都没能做，今天继续昨天的事情，计划下以后的路线问题；
路线：下面一个月以深度学习为主，包括cnn，rnn等网络，基本能够应用；传统机器学习方面放缓，认真听课，找出自己以后应该加强的点；
PS： hadoop spark 等工具；计算机基础知识；算法数据结构Leetcode；机器学习理论基础；机器学习项目实践；
周日10月1：今天没有出去玩，留在了实验室，心中还是有很多的迷茫。今天是周日，用来把前面这一周没有完成的都弄完吧。
面试题一些例子：

用Map Reduce implement矩阵乘法
NLP相关的encoding问题 (CBOW vs Skipgram)
不同的activation function的pros/cons
Gradient Boosting 相关问题
Random Forest 相关问题
SVM的Gaussian Kernel 的 dimension
用Regex分析文本
如何用python/R 读取JSON, 并且洗数据
用C++ implement Monte Carlo
coding: 用DFS走迷宫
- 用过哪些DL的library呀?
- 现在的DL 的state of art model有哪些呀?
- 如果如理diminishing gradient的问题呀?
- 如果同时处理文本文档+图片呀?
- 如果防止overfitting呀?
- 如何pre-train model呀?
- 能否自己在服务器上用distributed computing部署一个现有的model 呀?
面试中遇到的机器学习算法主要有线性回归、朴素贝叶斯、决策树、GDBT、随机森林、Adaboost、逻辑回归（和Softmax）、SVM、神经网络和卷积神经网络。遇到很多次让写逻辑回归的极大似然估计的推导。SVM会问思想，我SVM掌握的太少答的不好。神经网络会问随机梯度下降和反向传播，要写出式子来的。卷积神经网络就遇到过一次，当时不知道后来上网学习了一下挺有意思的。
损失函数、过拟合、算法的优缺点是经常问到的点，另外遇到的其他问题有这么几个：机器学习算法中哪些是回归算法哪些是分类的。他们的产品要做用户流失预测须要提取哪些特征的。其他我还遇到过倒排索引、推荐算法之类的问题。