爬虫加密字体解密爬虫加密字体解密

【爬虫加密字体解密】
文章图片

在爬取文本信息过程中遇到字体是加密的
需要把方块数字转换为十进制
再根据woff文件中的映射关系进行对应转换
需要注意的是这个字体文件url是每间隔几分钟就变化的如发现和上一次请求的地址不一样需要再次请求新的woff文件
具体代码如下

from fontTools.ttLib import TTFontif __name__ == '__main__':# 1 根据分析出来的关系，初始化把cmap 中的name 与网页显示文本映射关系 relation_table = {'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9' }# 2 获取到提取到的UTF-8 的值 text = ''# 3 下载文件并且获取文件中的 cmap 映射，下面简化案例假若已经获取到了字体文件 # cmap={100233: 'period', 100235: 'three', 100236: 'seven', 100237: 'six', 100238: 'nine', 100239: 'five', 100240: 'eight', 00241: 'two', 100242: 'one', 100243: 'four', 100244: 'zero'} font = TTFont('nxCOAYDu.woff') cmap = font.getBestCmap()# 4 转换逻辑 print(f'begin convert:text is {text}') text_list = list(text) for index, ch in enumerate(text_list): en_number = cmap.get(ord(ch), None) if en_number: alpha_str = relation_table.get(en_number, None) if alpha_str: text_list[index] = alpha_str text_final = ''.join(text_list) # 最后输出的就是页面上的数字 print(f'end convert:text is {text_final}')

爬虫加密字体解密

推荐阅读

南宁：房贷利率新政实施后买房能省多少钱？

drive|希捷推出 Xbox 专用外置 SSD：1TB 约 1095元，USB 3.2 Gen1 接口

农户贷款如何界定「一般农户指什么」

java用什么软件写代码，JAVA用什么软件编写

不要吃发物不要吃过甜过咸和酸性的食物

八角金盘的介绍-八角金盘的作用

flutter添加横线，flutter虚线边框

为什么戒烟后会发胖？

佛珠多肉烂根怎么办佛珠多肉烂了怎么办

中国知名菜刀有什么牌子？中国十大菜刀品牌排行

从入门到精通，轻松应对各种错误打印机1700代码解析

水果礼盒制作步骤大全图解水果礼盒的制作技巧是怎么样的

支付宝花呗当面花怎么使用？使用方法及店铺详细介绍

恒为科技的军方服务器具有怎样的性能？恒为科技军方服务器怎么样

gis中画的图成无效的书签，gis图没了

工商银行主要业务有哪些

iphone皮套

爱普生1430喷墨机清零

关于vb.neteval的信息

非诚勿扰影视产业分析