这是python spaCy文本分类的使用教程 。里面还有机器学习模型scikit-learn 。你可以参考一下 。有助于你解决问题 。代码什么都有
文本是极其丰富的信息源 。人们每分钟都会发送数亿封新电子邮件和短信 。确实有大量的文本数据等待挖掘见解 。但是 。想要从所有文本数据中收集含义的数据科学家面临着一个挑战:由于它以非结构化形式存在 。因此难以分析和处理 。
在大数据分析Python中spaCy文本分类使用教程中 。我们将研究如何使用有用的Python包spaCy(文档)将所有这些非结构化文本数据转换为对分析和自然语言处理更有用的内容 。
完成此操作后 。我们将能够从文本数据中得出有意义的模式和主题 。这在多种数据科学应用程序中很有用:垃圾邮件过滤 。支持通知单 。社交媒体分析 。上下文广告 。查看客户反馈等 。
具体来说 。我们将对自然语言处理(NLP)进行更高层次的研究 。然后 。我们将完成一些重要的基本操作 。以使用清理和分析文本数据spaCy 。然后 。我们将使用一些实际数据(亚马逊的Alexa智能家居扬声器的文本评论)深入研究文本分类 。特别是Logistic回归分类 。
什么是自然语言处理?
自然语言处理(NLP)是机器学习的一个分支 。致力于处理 。分析和有时生成人类语音(“自然语言”) 。
毫无疑问 。在确定文本字符串的含义方面 。人类仍然比机器好得多 。但是在数据科学中 。我们经常会遇到太大的数据集 。以至于人们无法在合理的时间内对其进行分析 。我们还可能遇到没有人可以分析和响应一段文本输入的情况 。在这种情况下 。我们可以使用自然语言处理技术来帮助机器对文本的含义有所了解(并在必要时做出相应的响应) 。
例如 。自然语言处理在情感分析中被广泛使用 。因为分析人员经常试图从大量文本数据中确定整体情感 。这对于人类进行梳理是很费时的 。它也用于广告匹配中-确定文本主体并自动分配相关广告 。它用于聊天机器人 。语音助手和其他需要机器理解并快速响应自然人类语言形式的输入的应用程序 。
分析和处理文本 spaCy
spaCy是Python的开源自然语言处理库 。它是专门为生产用途而设计的 。它可以帮助我们构建可有效处理大量文本的应用程序 。首先 。让我们看一下spaCy可以处理的一些基本分析任务 。
正在安装 spaCy
spaCy在继续进行操作之前 。我们需要先安装它及其英语模型 。我们可以使用以下命令行命令执行此操作:
pip install spacy
python -m spacy download en
我们也可以spaCy在Juypter Notebook中使用 。不过 。它不是Jupyter默认包含的预安装库之一 。因此我们需要从笔记本计算机运行这些命令以将其spaCy安装在正确的Anaconda目录中 。请注意 。我们!在每个命令前面都使用来让Jupyter笔记本知道应将其作为命令行命令读取 。
!pip install spacy
!python -m spacy download en
标记文本
标记化是将文本分成多个部分的过程 。称为标记 。并忽略标点符号( 。。'')和空格之类的字符 。spaCy的令牌生成器以Unicode文本形式接受输入 。并输出一系列令牌对象 。
让我们看一个简单的例子 。假设我们有以下文本 。并且我们希望对其进行标记化:
我们可以采用几种不同的方法来解决这个问题 。第一种称为单词标记化 。即将文本分解成单个单词 。对于许多语言处理应用程序而言 。这是至关重要的一步 。因为它们通常需要以单个单词而不是更长的字符串形式输入 。
在下面的代码中 。我们将导入spaCy及其英语模型 。并告诉我们将使用该模型进行自然语言处理 。然后 。我们将文本字符串分配给text 。使用nlp(text) 。我们将处理该文本spaCy并将结果分配给名为的变量my_doc 。
至此 。我们的文本已经被标记化了 。但是spaCy将标记化的文本存储为文档 。我们希望以列表形式查看它 。因此我们将创建一个for循环遍历文档的循环 。并为其添加每个单词标记在文本字符串中找到一个名为的列表 。token_list以便我们可以更好地了解单词的标记方式 。
文章插图
文章插图
如我们所见 。spaCy生成一个包含每个标记作为单独项目的列表 。请注意 。它已经认识到诸如之类的收缩实际上不应代表两个不同的词 。因此已将它们分解为两个不同的标记 。
首先 。我们需要加载语言词典 。在上面的示例中 。我们使用English()类加载英语词典并创建nlp nlp对象 。“ nlp”对象用于创建具有语言注释和各种nlp属性的文档 。创建文档后 。我们将创建令牌列表 。
推荐阅读
- 世界十大神奇动物排行榜 全球最神奇的动物介绍
- 有什么三观很正的日番推荐吗?
- 网页创意设计的思维 交互设计作品集案例
- 想找人设计个logo,大概需要多少钱啊?
- 宫崎骏老师的经典动漫你知道哪几个?觉得如何?
- 长城著名关口排名 长城各个关口的名称
- 你有喜欢的日本动画吗?
- 王者荣耀脚本辅助ios 王者荣耀辅助工具软件
- DNF玩家发现更改冒险团会重置签到活动次数,每天可获得一张装扮券兑换券,你有何看法?