2020-12(完成事项)
12.1-12.2 ×
1.分析spark中的执行流程 √
2.shuffleRDD的学习 (计划于12.04-12.05学习) √
【2020-12(完成事项)】12.3
3.分析spark源码 √
4.scala中的高级方法博客的书写 √
12.4-12.5
5.RDDS论文的学习 √
6.flume和kafka的重新学习(计划天数) √
7.学习视频的剩余部分,并计划spark博客的提纲 √
8.spark在数据分析中的使用(书籍的阅读) √
12.6
shuffle的学习 √
kafka第一天 √
IO流的复习任务 √
sparkSQL的学习(简单的复习) ×
对spark三个案例的优化分析 √
12.7-12.8
kafka第二天学习 √
spark core19中线程池的补充完成 早上完成 √
spark算子的简单的回顾(注意返回值的类型) √
spark on yarn 的学习 ×
kafka面试题的学习 √
spark 常用算子分析的完成(actor部分),包括repartitionsorwithpartition 早上完成 √
spark案例分析hexo的计划 √
sparkSQL的学习 √
12.9
kafka第三天学习 √
sparkSQL的学习-尚硅谷视频 √
java中级中对象的创建和销毁博客的书写(计划3天内完成) √
RangePartitioner的分析 √
sparkSQL函数的总结 √
12.10-12.11
12.10日
kafka复习完全部的内容 √
创建与销毁对象(第二天) √
spark案例的书写
hive/spark中的集合数据类型 √
分布式一致性协议(资料的查找...)
12.11日
effecttive java的学习 √
java设计模式的学习 √ (原则的学习)
java中的动态代理与反射 √
spark中的序列化问题,shuffle流程 √
12.12日
effecttive java的学习 √
第一天工作的整理 √
java中的设计模式 √
12.13日
titan项目day1 √
设计模式类图 √
12.14日
titan项目day2 √
设计模式 单例模式 √
12.15日
titan bug的解决 √
12.16-12.17日
tatan项目 day3 √
tatan项目 day4 √
一致性Hash算法 ×(12.17-12.18完成) √
HDFS中java-api的复习 (12.17-12.18完成) √
设计模式的学习
ID_MAPPING SQL实现
ID_MAPPING 图计算实现 √
spark 案例的规划与书写
test
1.fliter SQL的测试 √
2.sparkSQL操作hive权限问题的解决方案(在Environment variables处添加变量 HADOOP_USER_NAME=root) ,还有其他的方案吗
3.id mappingSQL实现方案 √
4.打包在yarn集群上运行(在shell 命令中添加集群的注意事项:要同时添加jar 和 classpath )
5.config,添加序列化器 √
6.shell 脚本学习 ×
12.18日
tatan项目 day5 √
shell 脚本 (12.19-12.20) √
java 设计模式学习 √
项目中,idmapping 新老用户的标识写完 √
评估字段的权重 √
梳理idmapping的流程 √
12.19-12.20
tatan项目 day6 √
shell脚本的学习 √
完成向集群提交任务 (未完成,由于不知道分装etl改日再写)
SQL代码的书写与分装 √
用户活跃分析SQL √
多维分析 √
拉链表的实现与梳理方案 √
12.21日
学习java设计模式
再次写一遍SQL在spark中
kafka面试题
hive中正则表达式的学习(三天学习)
12.22-12.23
学习java设计模式
spark数据分析案例的完成 √
kafka面试题
mysql hive建表的规范 √
sqoop操作指南 √
增量表和全量表的概念 √
维度建模的学习 √
完成titan项目SQL的补充 √
测试增量表的数据 √
spark优化(官网) √
对md内容的修正和理论的补充 √
12-24
spark分析流程与优化两个文档的规划
spark调优文章的书写 √(完成全部的调优主题) √
流程分析流程文档的书写 √
规划md的博客的结构(太乱了) √
12-25-12.26
学习Redis(安装) ×
HDFS配置文件的说明文档
ODS自定义解析字段 √
炸裂函数的使用,使用hive实现共同好友案例 √
azkaban实践 √
位图数据结构 √
大数据中查找算法: √
bloom
hash
bitmap
堆排序的思想
数据库索引
12.27
算法的学习 √
hive分区分桶表的学习
spark shuffledDD的复习√
数据驱动md的书写 √
学习Redis(迫在眉睫)
java设计模式(好几天没看了)
12.28日
java设计模式学习
spark shuffle的学习
学习zookeeper的分布式一致性协议
12.29日
归并排序和基数排序的学习 √
spark partition分析 √
解决这些面试题:
你们这些指标力度主要是在pv、uv、ip是嘛?在哪些维度上会产生?
mapreduce怎么扩大并行度:回答切片机制
spark你常用的参数设置有哪些:调优指南
take rdd √
使用sample算子的时候,三个参数分别代表什么含义?
答数据抽取是否放回,打分值,随机数种子值。是否放回有什么区别?调用的什么算法? √
索引和主键的区别:主键一定是唯一性的索引,唯一性的索引不一定就是主键
spark SQL小文件的处理...... √
coalesce cache presist 本质上是回答持久化级别的问题
12.30
数据仓库项目的补充:从flume到kafka的流程
数据仓库中机器学习部分的补充和业务部分的补充
学习java设计模式 √
学习基类 √ 完成明天使用scala实现一遍
把hive的知识再复习一遍
互联网SQL50题再写一遍 ???
一道SQL题 √
12.31-1.1日
java设计模式学习 ×
把项目补充完整,
对于项目的描述: √
把业务域的SQL给补充完整 √
把机器学习的部分给补充完成,并且把理解特征工程,做了什么
把flume-kafka-flume 学习一下 ×
row key的设计:例如手机号,如果直接以手机号为rowkey,会造成热点冲突,我们可以反转这个手机号,这会提高写的性能,但是读的性能会用所下降,但是只是查询几条的话,还是很容易的,对于rowkey的设计,我们可以采用随机数
utf-8最多三个字节所以考虑使用\111111111(字节)来占位
查询的时候发生热点问题,造成某台机子高并发,所以改用随机的random,是业务中有规律的数据变的没有规律.
增量表算错了,怎么办?作为一个中间表在某段时间重新增量计算
深入理解java虚拟机的学习(一天一课)?是否需要现在学
学习的大数据的发展概况,为什么需要这些功能
早上应该做什么?结合以后上班的环境?
学习cyc2018的算法题并总结-晚上的任务
java的复习(gude)--早上的任务
javase基础中重要的知识有哪些?集合 IO流 多线程,怎么把这些串起来
HDFS配置文件的说明文档的说明
推荐阅读
- 一些杂感(11)
- 作业没有完成仍坚持要开家庭会议|作业没有完成仍坚持要开家庭会议 44
- 这次,我想先完成一个承诺
- 2020-12-18房爸爸逸娜分享
- 阅读《此生未完成》一
- 2020-12-11晨间日记-41
- EasyOA|EasyOA 基于SSM的实现 未完成总结与自我批判
- 每日复盘|每日复盘 Day122
- 此生未完成
- 2020-12