主要分为以下几个步骤:
- 下载模型放到目录中
- 使用transformers中的BertModel,BertTokenizer来加载模型与分词器
- 使用tokenizer的
encode
和decode
函数分别编码与解码,注意参数add_special_tokens
和skip_special_tokens
- forward的输入是一个[batch_size, seq_length]的tensor,再需要注意的是attention_mask参数。
- 输出是一个tuple,tuple的第一个值是bert的最后一个transformer层的hidden_state,size是[batch_size, seq_length, hidden_size],也就是bert最后的输出,再用于下游的任务。
# -*- encoding: utf-8 -*-
import warningswarnings.filterwarnings('ignore')
from transformers import BertModel, BertTokenizer, BertConfig
import os
from os.path import dirname, abspathroot_dir = dirname(dirname(dirname(abspath(__file__))))import torch# 把预训练的模型从官网下载下来放到目录中
pretrained_path = os.path.join(root_dir, 'pretrained/bert_zh')
# 从文件中加载bert模型
model = BertModel.from_pretrained(pretrained_path)
# 从bert目录中加载词典
tokenizer = BertTokenizer.from_pretrained(pretrained_path)
print(f'vocab size :{tokenizer.vocab_size}')
# 把'[PAD]'编码
print(tokenizer.encode('[PAD]'))
print(tokenizer.encode('[SEP]'))
# 把中文句子编码,默认加入了special tokens了,也就是句子开头加入了[CLS] 句子结尾加入了[SEP]
ids = tokenizer.encode("我是中国人", add_special_tokens=True)
# 从结果中看,101是[CLS]的id,而2769是"我"的id
# [101, 2769, 3221, 704, 1744, 782, 102]
print(ids)
# 把ids解码为中文,默认是没有跳过特殊字符的
print(tokenizer.decode([101, 2769, 3221, 704, 1744, 782, 102], skip_special_tokens=False))
# print(model)inputs = torch.tensor(ids).unsqueeze(0)
# forward,result是一个tuple,第一个tensor是最后的hidden-state
result = model(torch.tensor(inputs))
# [1, 5, 768]
print(result[0].size())
# [1, 768]
print(result[1].size())for name, parameter in model.named_parameters():
# 打印每一层,及每一层的参数
print(name)
# 每一层的参数默认都requires_grad=True的,参数是可以学习的
print(parameter.requires_grad)
# 如果只想训练第11层transformer的参数的话:
if '11' in name:
parameter.requires_grad = True
else:
parameter.requires_grad = Falseprint([p.requires_grad for name, p in model.named_parameters()])
【Bert|pytorch使用Bert】添加atten_mask的方法:
其中101是[CLS],102是[SEP],0是[PAD]
>>> a
tensor([[101,3,4,23,11,1, 102,0,0,0]])
>>> notpad = a!=0
>>> notpad
tensor([[ True,True,True,True,True,True,True, False, False, False]])
>>> notcls = a!=101
>>> notcls
tensor([[False,True,True,True,True,True,True,True,True,True]])
>>> notsep = a!=102
>>> notsep
tensor([[ True,True,True,True,True,True, False,True,True,True]])
>>> mask = notpad & notcls & notsep
>>> mask
tensor([[False,True,True,True,True,True, False, False, False, False]])
>>>
推荐阅读
- pytorch|使用pytorch从头实现多层LSTM
- SG平滑轨迹算法的原理和实现
- pytorch|YOLOX 阅读笔记
- Keras|将Pytorch模型迁移到android端(android studio)【未实现】
- Android|将Pytorch模型部署到Android端
- nvidia|nvidia jetson xavier nx安装pytorch
- python|PyTorch单机多卡分布式训练教程及代码示例
- 深度瞎搞|PyTorch单机多卡训练(DDP-DistributedDataParallel的使用)备忘记录
- Pytorch图像分割实践|Pytorch自定义层或者模型类
- 安装问题|win10+cuda11.1+anaconda+pytorch+pycharm配置环境