利用Python进行自然语言处理技术实践

【导语】
自然语言处理（NLP）是计算机科学和人工智能中的一个重要领域。Python语言因其易学易用的特性，也成为了NLP领域的重要工具之一。本文将介绍如何利用Python进行自然语言处理技术实践，对于想要学习NLP的读者或者想要加深对Python中NLP的了解的读者来说，这篇文章值得一读。

【正文】
1. 文本分词
文本分词是自然语言处理的基础，它将整个文本拆分成单个单词或者其他基本单元，以便进行进一步的处理。利用Python中的nltk库进行文本分词可以非常简单和方便：

```
import nltk
text = "Hello world, how are you doing today?"
tokens = nltk.word_tokenize(text)
print(tokens)
```

代码中，我们首先导入nltk库，然后定义一个字符串text，其中包含需要分词的文本。然后我们调用nltk库中的word_tokenize()方法对text进行分词，返回的结果储存在tokens变量中。最后我们将tokens打印出来，结果如下：

```
['Hello', 'world', ',', 'how', 'are', 'you', 'doing', 'today', '?']
```

我们可以看到，代码成功地将文本拆分成了单个单词，并且将标点符号也一并分割出来了。

2. 词性标注
词性标注是将每个单词的词性进行标注，比如名词、动词、形容词等等。Python中同样可以利用nltk库进行词性标注：

```
import nltk
text = "I am learning natural language processing"
tokens = nltk.word_tokenize(text)
tagged = nltk.pos_tag(tokens)
print(tagged)
```

代码中，我们首先定义了一个字符串text，然后利用nltk库中的word_tokenize()方法对其进行分词，返回的结果储存在tokens变量中。然后我们调用nltk库中的pos_tag()方法，对于tokens中的每个单词进行词性标注，将结果储存在tagged变量中。最后我们将tagged打印出来，结果如下：

```
[('I', 'PRP'), ('am', 'VBP'), ('learning', 'VBG'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN')]
```

我们可以看到，代码成功地将每个单词进行了词性标注，并且返回了标注结果。

3. 命名实体识别
命名实体识别是NLP领域重要的应用之一，它可以识别文本中涉及到的实体，比如人名、地名、组织机构名等等。Python中同样可以使用nltk库进行实现：

```
import nltk
text = "John works at Google in the United States"
tokens = nltk.word_tokenize(text)
tagged = nltk.pos_tag(tokens)
entities = nltk.chunk.ne_chunk(tagged)
print(entities)
```

代码中，我们首先定义了一个字符串text，然后利用nltk库中的word_tokenize()方法对其进行分词，返回的结果储存在tokens变量中。然后我们再调用nltk库中的pos_tag()方法对每个单词进行词性标注，将结果储存在tagged变量中。最后，我们调用nltk库中的chunk()方法对tagged中的每个单词进行命名实体识别，将结果储存在entities变量中。最后我们将entities打印出来，结果如下：

```
(S
  (PERSON John/NNP)
  works/VBZ
  at/IN
  (ORGANIZATION Google/NNP)
  in/IN
  the/DT
  (GPE United/NNP States/NNPS))
```

我们可以看到，代码成功地识别出了文本中的实体，并将其进行了标注。

4. 文本分类
文本分类是自然语言处理领域一个非常重要的任务，它可以将一个未知的文本分类到预定的类别中。Python中同样可以使用nltk库进行实现：

```
import nltk
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words.keys())[:2000]
featuresets = [(document_features(d, word_features), c) for (d,c) in documents]
train_set, test_set = featuresets[:1900], featuresets[1900:]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))
```

代码中，我们首先导入nltk库，然后从nltk库中导入movie_reviews语料库。我们定义了一个名为documents的列表，其中储存了由电影评论和类别组成的元组。然后我们调用nltk库中的FreqDist()方法来计算每个单词出现的次数，并将其储存在all_words变量中。为了避免噪音单词对分类结果的负面影响，我们只选择出现频率最高的2000个单词作为特征词，将其储存在word_features中。最后，我们通过document_features()方法将每个评论转换为特征集，并将其储存在featuresets变量中。我们将前1900个评论作为训练集，后100个评论作为测试集，使用nltk库中的naive_bayes分类器对训练集进行训练，并计算分类器的准确率。

【总结】
Python是一个非常适合自然语言处理的语言，结合nltk库的使用，可以非常方便地进行文本分词、词性标注、命名实体识别和文本分类等任务。在实际工作中，我们可以根据具体需求使用不同的Python库和算法，来完成自然语言处理领域的各种任务。
首页

课程中心

免费公开课

技术干货

就业动态

马哥动态

利用Python进行自然语言处理技术实践