使用Python构建一个简单的文本分类器

昨天 9阅读

在当今大数据时代，文本分类是自然语言处理（NLP）中最重要的任务之一。它广泛应用于垃圾邮件检测、情感分析、新闻分类、智能客服等领域。本文将介绍如何，并通过代码展示整个流程。

我们将使用经典的20 Newsgroups数据集进行演示，并采用朴素贝叶斯（Naive Bayes）作为分类算法。此外，我们还会用到scikit-learn库来实现特征提取和模型训练。

环境准备

首先，我们需要安装必要的Python库：

pip install scikit-learn nltk pandas matplotlib seaborn

然后导入所需的模块：

import numpy as npimport pandas as pdfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import classification_report, confusion_matrix, accuracy_scoreimport matplotlib.pyplot as pltimport seaborn as sns

加载数据集

我们将使用sklearn.datasets.fetch_20newsgroups加载20个新闻组的文本数据集。为了加快训练速度，我们可以只选择其中的一部分类别：

categories = ['alt.atheism', 'comp.graphics', 'rec.sport.baseball', 'sci.space', 'talk.politics.mideast']# 加载训练集和测试集newsgroups_train = fetch_20newsgroups(subset='train', categories=categories)newsgroups_test = fetch_20newsgroups(subset='test', categories=categories)X_train = newsgroups_train.datay_train = newsgroups_train.targetX_test = newsgroups_test.datay_test = newsgroups_test.target

查看一下数据的基本信息：

print("训练样本数量：", len(X_train))print("测试样本数量：", len(X_test))print("类别名称：", newsgroups_train.target_names)

输出示例：

训练样本数量： 2838测试样本数量： 1890类别名称： ['alt.atheism', 'comp.graphics', 'rec.sport.baseball', 'sci.space', 'talk.politics.mideast']

文本预处理与特征提取

在机器学习中，文本需要被转换为数值向量形式。这里我们使用TF-IDF（Term Frequency-Inverse Document Frequency）方法来提取文本特征。

vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)X_train_tfidf = vectorizer.fit_transform(X_train)X_test_tfidf = vectorizer.transform(X_test)print("特征维度：", X_train_tfidf.shape)

输出示例：

特征维度： (2838, 5000)

训练分类模型

我们使用朴素贝叶斯分类器，这是文本分类中非常经典且高效的模型。

clf = MultinomialNB()clf.fit(X_train_tfidf, y_train)

模型评估

使用测试集对模型进行评估：

y_pred = clf.predict(X_test_tfidf)# 准确率accuracy = accuracy_score(y_test, y_pred)print("准确率：{:.4f}".format(accuracy))# 分类报告print("\n分类报告：")print(classification_report(y_test, y_pred, target_names=newsgroups_train.target_names))# 混淆矩阵conf_mat = confusion_matrix(y_test, y_pred)plt.figure(figsize=(8,6))sns.heatmap(conf_mat, annot=True, fmt='d', cmap="Blues",            xticklabels=newsgroups_train.target_names,            yticklabels=newsgroups_train.target_names)plt.xlabel('预测标签')plt.ylabel('真实标签')plt.title('混淆矩阵')plt.show()

输出示例：

准确率：0.9037分类报告：                         precision    recall  f1-score   support         alt.atheism       0.89      0.89      0.89       239        comp.graphics       0.92      0.93      0.92       289 rec.sport.baseball       0.93      0.95      0.94       238           sci.space       0.91      0.91      0.91       297talk.politics.mideast       0.90      0.84      0.87       287              accuracy                           0.90      1350             macro avg       0.91      0.90      0.90      1350          weighted avg       0.91      0.90      0.90      1350

从结果可以看出，该分类器在测试集上表现良好，平均准确率达到90%以上。

模型优化建议

虽然当前模型已经取得了不错的性能，但我们还可以尝试以下几种方式进行优化：

调整TF-IDF参数：如增加ngram_range=(1,2)以考虑双词组合。使用其他分类器：如逻辑回归、支持向量机（SVM）、随机森林等。引入更复杂的特征提取方式：如Word2Vec或BERT嵌入。使用交叉验证：进一步调参提升模型泛化能力。

例如，使用逻辑回归代替朴素贝叶斯：

from sklearn.linear_model import LogisticRegressionlr_clf = LogisticRegression(max_iter=1000)lr_clf.fit(X_train_tfidf, y_train)y_pred_lr = lr_clf.predict(X_test_tfidf)print("逻辑回归准确率：{:.4f}".format(accuracy_score(y_test, y_pred_lr)))

本文介绍了如何使用Python和scikit-learn构建一个简单的文本分类器。我们完成了数据加载、预处理、特征提取、模型训练与评估的全过程。尽管这是一个基础版本的分类器，但它已经能够达到较高的准确率，适用于许多实际应用场景。

如果你希望将其部署到生产环境中，可以考虑结合Flask或FastAPI构建REST API接口，或者使用Docker容器化服务，便于后续集成和维护。

完整代码汇总

import numpy as npimport pandas as pdfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import classification_report, confusion_matrix, accuracy_scoreimport matplotlib.pyplot as pltimport seaborn as sns# 1. 加载数据categories = ['alt.atheism', 'comp.graphics', 'rec.sport.baseball', 'sci.space', 'talk.politics.mideast']newsgroups_train = fetch_20newsgroups(subset='train', categories=categories)newsgroups_test = fetch_20newsgroups(subset='test', categories=categories)X_train = newsgroups_train.datay_train = newsgroups_train.targetX_test = newsgroups_test.datay_test = newsgroups_test.target# 2. 特征提取vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)X_train_tfidf = vectorizer.fit_transform(X_train)X_test_tfidf = vectorizer.transform(X_test)# 3. 训练模型clf = MultinomialNB()clf.fit(X_train_tfidf, y_train)# 4. 模型评估y_pred = clf.predict(X_test_tfidf)accuracy = accuracy_score(y_test, y_pred)print("准确率：{:.4f}".format(accuracy))print("\n分类报告：")print(classification_report(y_test, y_pred, target_names=newsgroups_train.target_names))# 绘制混淆矩阵conf_mat = confusion_matrix(y_test, y_pred)plt.figure(figsize=(8,6))sns.heatmap(conf_mat, annot=True, fmt='d', cmap="Blues",            xticklabels=newsgroups_train.target_names,            yticklabels=newsgroups_train.target_names)plt.xlabel('预测标签')plt.ylabel('真实标签')plt.title('混淆矩阵')plt.show()

文章作者：AI助手
更新时间：2025年04月05日

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python构建一个简单的文本分类器

环境准备

加载数据集

文本预处理与特征提取

训练分类模型

模型评估

模型优化建议

完整代码汇总

相关阅读

使用Python进行数据分析与可视化：一个完整的实战教程

使用Python进行数据可视化：从入门到实践

使用Python进行数据可视化：从入门到实战

使用 Python 实现一个简单的图像分类器

目录[+]

微信号复制成功