transformer|轻量级Transformer模型ConvBERT架构及完整源码实现

第28章:使用Local dependency轻量级Transformer模型ConvBERT架构内幕及完整源码实现
1,BERT依赖global self-attention而带来的问题分析
2,BERT不同Layer的computation redundancy分析
3,使用local dependency的数学原理分析
4,local dependency的工程实践
5,convolution head数学原理剖析
6,构建mixed attention block分析
7,ConvBertTokenizer源码解析
8,把TF模型的checkpoints加载入pytorch模型中
9,ConvBertEmbeddings完整源码分析
10,ConvBertPreTrainedModel完整源码分析
11,SeparableConv1D完整源码分析
12,ConvBertAttention完整源码分析
13,ConvBertSelfAttention完整源码分析
14,ConvBertSelfOutput完整源码分析
15,GroupedLinearLayer完整源码分析
16,ConvBertIntermediate完整源码实现分析
17,ConvBertLayer完整源码实现分析
18,ConvBertOutput完整源码实现分析
19,ConvBertEncoder完整源码实现分析
20,ConvBertPredictionHeadTransform完整源码实现分析
21,ConvBertModel完整源码实现分析
22,ConvBertGeneratorPredictions完整源码实现分析
23,ConvBertForMaskedLM完整源码实现分析
24,ConvBertClassificationHead完整源码实现分析
25,ConvBertForSequenceClassification完整源码实现分析
26,ConvBertForMultipleChoice完整源码实现分析
27,ConvBertForTokenClassification完整源码实现分析
28,ConvBertForQuestionAnswering完整源码实现分析
29,ConvBertConfig代码分析

第29章:使用Control code的文本生成Transformer模型CTRL架构内幕及完整源码实现
1,能够使用第一个Token作为control code的数学原理分析
2,控制生成内容的style、content及task-specific行为的架构设计
3,control code的来源:co-occure
4,生产coherent内容的关键是什么?
5,基于CLM的CTRL 设计实现
6,syntactically coherent text与semantically coherent text
7,CTRLTokenizer源码完整实现解析
8,CTRLTokenizer源码完整实现解析
9,positional_encoding源码完整实现解析
10,scaled_dot_product_attention源码完整实现解析
11,MultiHeadAttention源码完整实现解析
12,EncoderLayer源码完整实现解析
13,CTRLPreTrainedModel源码完整实现解析
14,CTRLLMHeadModel源码完整实现解析
15,CTRLModel源码完整实现解析
16,CTRLForSequenceClassification源码完整实现解析

第30章:使用disentangled attention机制Transformer模型DeBERTa架构内幕及完整源码实现
1,使用两个vector来编码每个word的content和position
2,在pretraining阶段使用output enhanced mask decoder取代softmax layer对masked words预测的数学原理剖析
3,DebertaEmbeddings完整源码实现解析
4,DebertaPreTrainedModel完整源码实现解析
5,Disentangled Attention算法剖析
6,DebertaTokenizer完整源码实现解析
7,XDropout完整源码实现解析
8,StableDropout完整源码实现解析
9,XSoftmax完整源码实现解析
10,ContextPooler完整源码实现解析
11,DebertaLayerNorm完整源码实现解析
12,DebertaSelfOutput完整源码实现解析
13,build_relative_position完整源码实现解析
14,DebertaAttention完整源码实现解析
15,DebertaIntermediate完整源码实现解析
16,DebertaOutput完整源码实现解析
17,DebertaLayer完整源码实现解析
18,DebertaEncoder完整源码实现解析
19,DisentangledSelfAttention完整源码实现解析
20,DebertaModel完整源码实现解析
21,DebertaForMaskedLM完整源码实现解析
22,DebertaPredictionHeadTransform完整源码实现解析
23,DebertaLMPredictionHead完整源码实现解析
24,DebertaOnlyMLMHead完整源码实现解析
25,DebertaForSequenceClassification完整源码实现解析
26,DebertaForTokenClassification完整源码实现解析
27,DebertaForQuestionAnswering完整源码实现解析


第31章:基于dual-encoder机制的开发QA问答Transformer模型Dense Passage Retrieval (DPR)架构内幕及完整源码实现
1,基于open-domain Q&A常见实现及问题分析
2,sparse vector space问题及解决方案
3,Dense vector及dual-encoder架构设计
4,小规模数据训练任务有效性数学原理剖析
5,DPRQuestionEncoderTokenizer完整源码实现详解
6,decode_best_spans完整源码实现详解
7,get_best_spans完整源码实现详解
8,CustomDPRReaderTokenizerMixin完整源码实现详解
9,DPRReaderTokenizer完整源码实现详解
10,DPRContextEncoderOutput完整源码实现详解
11,DPRQuestionEncoderOutput完整源码实现详解
12,DPRReaderOutput完整源码实现详解
13,DPRPreTrainedModel完整源码实现详解
14,DPREncoder完整源码实现详解
15,DPRSpanPredictor完整源码实现详解
16,DPRPretrainedContextEncoder完整源码实现详解
17,DPRPretrainedQuestionEncoder完整源码实现详解
18,DPRPretrainedReader完整源码实现详解
19,DPRContextEncoder完整源码实现详解
20,DPRQuestionEncoder完整源码实现详解
21,DPRReader完整源码实现详解
22,高效的Dense Vector Retrieval技术解析

第32章:基于Fourier Transform的Transformer模型FNet架构内幕及完整源码实现
1,BERT中Attention本质和功能再思考
2,fourier transform数学原理剖析
3,使用fourier transform取代self-attention layer
4,为什么采用fourier transform会fewer parameters及more memory efficient?
5,fourier transform有效性带来的“mix” input tokens操作的思考
6,FNet处理longer input lengths的设计及实现
7,PreTrainedTokenizer源码完整实现剖析
8,get_special_tokens_mask源码完整实现剖析
9,tokenize源码完整实现剖析
10,FNetTokenizer源码完整实现剖析
11,FNetEmbeddings源码完整实现剖析
12,fourier_transform方法源码完整实现剖析
13,FNetBasicFourierTransform源码完整实现剖析
14,FNetFourierTransform源码完整实现剖析
15,FNetBasicOutput源码完整实现剖析
16,FNetOutput源码完整实现剖析
17,FNetIntermediate源码完整实现剖析
18,FNetLayer源码完整实现剖析
19,FNetEncoder源码完整实现剖析
20,FNetPooler源码完整实现剖析
21,FNetPredictionHeadTransform源码完整实现剖析
22,FNetLMPredictionHead源码完整实现剖析
23,FNetOnlyMLMHead源码完整实现剖析
24,FNetOnlyNSPHead源码完整实现剖析
25,FNetPreTrainingHeads源码完整实现剖析
26,FNetPreTrainedModel源码完整实现剖析
27,FNetForPreTrainingOutput源码完整实现剖析
28,FNetModel源码完整实现剖析
29,FNetForPreTraining源码完整实现剖析
30,FNetForMaskedLM源码完整实现剖析
31,FNetForNextSentencePrediction源码完整实现剖析
32,FNetForSequenceClassification源码完整实现剖析
33,FNetForMultipleChoice源码完整实现剖析
34,FNetForTokenClassification源码完整实现剖析
【transformer|轻量级Transformer模型ConvBERT架构及完整源码实现】35,FNetForQuestionAnswering源码完整实现剖析

    推荐阅读