Python自然语言处理：用NLTK和spaCy处理文本数据

Python自然语言处理：用NLTK和spaCy处理文本数据

自然语言处理(Natural Language Processing, NLP)是人工智能领域的核心技术之一。它主要是研究如何让计算机理解人类语言，进而实现人机交互和自然语言生成。随着深度学习和自然语言生成技术的成熟，NLP技术已经被广泛应用于搜索引擎、机器翻译、文本分类、情感分析、问答系统等领域。本文将介绍Python中两个流行的NLP库NLTK和spaCy的使用方法，以及它们在自然语言处理中的应用。

1. NLTK库

NLTK（Natural Language Toolkit）是一个基于Python的自然语言处理库，提供了一系列功能强大的工具和数据集，可应用于文本分类、标注、分词、语法分析、语义分析等方面。NLTK最初由史丹福大学的史蒂文·伯德等人开发，现已成为自然语言处理领域的权威工具之一。

1.1 安装

使用pip安装NLTK库：

```
pip install nltk
```

1.2 中文分词

NLTK库提供了基于正则表达式的中文分词器，可以识别汉字、英文、数字和标点符号等。

```python
import re

text = "这是一段测试中文分词的文本。"
text = re.sub(r'[^\u4e00-\u9fa5]', '', text) # 只保留汉字
print(text)
# 输出：这是一段测试中文分词的文本

import jieba

seg_list = jieba.cut(text, cut_all=False)
print(" ".join(seg_list))
# 输出：这是 一段 测试 中文 分词 的 文本
```

1.3 词性标注

NLTK库提供了多种词性标注器，包括基于正则表达式和基于统计学方法的标注器。其中，基于统计学方法的标注器效果更好，但需要较大的语料库支持。

```python
import nltk

text = "This is a test sentence."
tokens = nltk.word_tokenize(text)
tagged = nltk.pos_tag(tokens)
print(tagged)
# 输出：[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('test', 'NN'), ('sentence', 'NN'), ('.', '.')]
```

1.4 语法分析

NLTK库提供了从简单句到复杂句的多种语法分析器，包括基于规则的分析器和基于统计学方法的分析器。其中，基于统计学方法的分析器效果更好，但需要较大的语料库支持。

```python
import nltk

text = "If I go to the supermarket, I will buy some fruits."
tokens = nltk.word_tokenize(text)
tagged = nltk.pos_tag(tokens)
grammar = nltk.CFG.fromstring("""
    S -> NP VP
    NP -> DT NN | PRP
    VP -> VB S | VB NP | VB NP PP
    PP -> IN NP
""")
parser = nltk.ChartParser(grammar)
for tree in parser.parse(tagged):
    print(tree)
```

1.5 情感分析

NLTK库提供了多种情感分析器，包括基于规则和基于统计学方法的分析器。其中，基于统计学方法的分析器效果更好，但需要较大的语料库支持。

```python
import nltk.sentiment.sentiment_analyzer as sa

text = "This is a positive sentence."
tokens = nltk.word_tokenize(text)
sid = sa.SentimentIntensityAnalyzer()
scores = sid.polarity_scores(text)
print(scores)
# 输出：{'neg': 0.0, 'neu': 0.306, 'pos': 0.694, 'compound': 0.5719}
```

2. spaCy库

spaCy是一个基于Python的自然语言处理库，提供了高效的实体识别、依存关系分析、词向量表示等功能。spaCy最初由马萨诸塞州立大学的马修·霍奇金斯等人开发，现已成为当下最受欢迎的自然语言处理库之一。

2.1 安装

使用pip安装spaCy库：

```
pip install spacy
```

安装完成后，还需要下载对应的语言模型，例如英文模型的命令如下：

```
python -m spacy download en_core_web_sm
```

2.2 中文分词

spaCy库提供了基于规则和基于统计学方法的中文分词器，可以识别汉字、英文、数字和标点符号等。

```python
import spacy

nlp = spacy.load("zh_core_web_sm")
text = "这是一段测试中文分词的文本。"
doc = nlp(text)
for token in doc:
    if not token.is_punct:
        print(token.text, token.pos_)
# 输出：这 PRON
#      是 AUX
#      一 DET
#      段 NOUN
#      测试 NOUN
#      中文 NOUN
#      分词 VERB
#      的 PART
#      文本 NOUN
```

2.3 词性标注

spaCy库提供了多种词性标注模型，包括基于规则和基于统计学方法的标注器。其中，基于统计学方法的标注器效果更好，但需要较大的语料库支持。

```python
import spacy

nlp = spacy.load("en_core_web_sm")
text = "This is a test sentence."
doc = nlp(text)
for token in doc:
    print(token.text, token.pos_)
# 输出：This DET
#      is AUX
#      a DET
#      test NOUN
#      sentence NOUN
#      . PUNCT
```

2.4 语法分析

spaCy库提供了多种语法分析模型，包括基于规则和基于统计学方法的分析器。其中，基于统计学方法的分析器效果更好，但需要较大的语料库支持。

```python
import spacy

nlp = spacy.load("en_core_web_sm")
text = "If I go to the supermarket, I will buy some fruits."
doc = nlp(text)
for sent in doc.sents:
    for chunk in sent.noun_chunks:
        print(chunk.text, chunk.root.text, chunk.root.dep_)
# 输出：I I nsubj
#      the supermarket supermarket pobj
#      some fruits fruits dobj
```

2.5 实体识别

spaCy库提供了多种实体识别模型，包括基于规则和基于统计学方法的识别器。其中，基于统计学方法的识别器效果更好，但需要较大的语料库支持。

```python
import spacy

nlp = spacy.load("en_core_web_sm")
text = "Barack Obama was born in Hawaii."
doc = nlp(text)
for ent in doc.ents:
    print(ent.text, ent.label_)
# 输出：Barack Obama PERSON
#      Hawaii GPE
```

总结

NLTK和spaCy是两个功能强大的自然语言处理库，都能够提供文本的分词、词性标注、语法分析、情感分析、实体识别等功能。NLTK库主要以规则为主，spaCy库则更注重于统计学方法。在实际应用中，我们可以选择适合自己需求的库进行使用。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

Python自然语言处理：用NLTK和spaCy处理文本数据