原文作者:Dr. Edel Garcia
原文地址:https://apluswebservices.com/wp-content/uploads/2012/05/latent-semantic-indexing-fast-track-tutorial.pdf
- 摘要:本快速教程提供了使用奇异值分解(SVD)计算方法和Term Count Model对查询和文档评分以及对结果排序的说明。
- 关键词:潜在语义索引,LSI,奇异值分解,SVD,特征向量,文档,查询,余弦相似度,term count model
- 背景:以下LSI示例摘自Grossman和Frieder的Information Retrieval, Algorithms and Heuristics (1)的第71页
- Shipment of gold damaged in a fire.
- Delivery of silver arrived in a silver truck.
- Shipment of gold arrived in a truck.
- 停用词不会被忽略
- 文本都是已分词(tokenized)且小写的
- 词干化(stemming)不会被用到
- 词语按照字母顺序排列
- 问题:当以gold silver truck为搜索词时,使用潜在语义索引(LSI)对这些文档进行排名。
文章图片
2.分解矩阵A,并找到U、S和V,使得
文章图片
【潜在语义索引(Latent Semantic Indexing, LSI)——快速教程】
文章图片
3.通过保留u和v的第一列以及s的第一列和第一行来实现秩2近似。
文章图片
4.在这个降维的二维空间中找到新的文档向量坐标。
V的行向量保留特征向量,这些是单独的文档向量(document vectors)的坐标,因此:
d1(-0.4945,0.6492)
d2(-0.6458,-0.7194)
d3(-0.5817,0.2469)
5.在降维的二维空间中找到新的查询向量坐标。
文章图片
注意:这是二维中的查询向量(query vector)的新坐标。请注意现在这个矩阵与步骤1中给出的原始查询矩阵q不同。
文章图片
6.按照查询-文档的余弦相似度的降序排列文档。
计算余弦相似度的公式如下,首先计算查询向量和文档向量之间的点积,然后除以查询向量和文档向量模的乘积。
文章图片
我们可以看到文档d2的分数高于d3和d1,它的向量比其他向量更接近查询向量。请注意,词向量理论仍然应用于LSI的开始与结尾。
文章图片
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》
- NLP|NLP预训练模型综述
- NLP之文本表示——二值文本表示
- 隐马尔科夫HMM应用于中文分词