text-classifier-py

python实现文本分类的常用方法，目前实现了两种ML算法，朴素贝叶斯和SVM，都是业界较常用的方法。

朴素贝叶斯

代码使用参考子文件夹下README文件

SVM

代码使用参考子文件夹下README文件

-- 2019.1.22 更新FastText --

FastText

实验数据

百度网盘：链接: https://pan.baidu.com/s/1nvz47Jb 密码: hxda

实验结果

两种方法都只是使用了chi作为特征选择方法，并且选择了词汇集的40%作为特征词。训练数据为5.6w条新闻，测试数据为3.78w条，准确率如下： NB：59.79% SVM：57.46%

训练时间没有明确测量，但是SVM快很多。

准确率稍低一方面是因为没有很好的调参（目前我的主要目的是实现算法从而加深算法的理解），二是因为训练数据是真实的新闻数据，新闻质量进一步提高的话也可以提高准确率。

进一步工作

最近正在学习深度学习，也看到很多使用CNN，DNN的文本分类方法，可以多做一些研究。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
FastText		FastText
NaiveBayes		NaiveBayes
SVM		SVM
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

text-classifier-py

朴素贝叶斯

SVM

FastText

实验数据

实验结果

进一步工作

About

Uh oh!

Releases

Packages

Languages

yimiwawa/text-classifier-py

Folders and files

Latest commit

History

Repository files navigation

text-classifier-py

朴素贝叶斯

SVM

FastText

实验数据

实验结果

进一步工作

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages