[NLP][长文本分类](二)语料预处理和文本特征选择
导语在上一篇中笔者准备了100w条新闻语料,接下来进入文本分类的预处理环节。当然,进行文本分类需要遵循一些基本步骤,以下便是笔者总结的文本分类的基本处理框架(持续更新本框架):
预处理阶段分词方案NLP中分词是一项基础技术,分词好坏对后续各项NLP任务也有不小的影响。目前的常用分词方案如下:对中文分词的讨论可以参考有哪些比较好的中文分词方案?值得注意的是,常见的分词器都是使用机器学习算法和词典相结
...
