近来读《毛泽东选集》,恰好工作中正在用ElasticSearch,所以就有个想法,统计毛选中的热词。利用es分词,然后单词过滤,选出有实际含义的词汇做了统计。
统计第一篇文章就是毛选第一卷第一章《中国社会各阶级的分析》。最终选择了Top20的词汇,汇总如下:
\begin{array}[b] {|c|c|} \hline 排序 & 词汇& 频次\\ \hline 1 & 阶级(中国社会各阶级的分析) & 64 \\ \hline 2 & 革命(中国社会各阶级的分析)& 42 \\ \hline 2 & 资产阶级(中国社会各阶级的分析)& 18 \\ \hline 4 & 贫农(中国社会各阶级的分析) & 18 \\ \hline 5 & 中国(中国社会各阶级的分析)& 17 \\ \hline 6 & 无产阶级(中国社会各阶级的分析)& 15 \\ \hline 7 & 自耕农(中国社会各阶级的分析) & 14 \\ \hline 7 & 经济(中国社会各阶级的分析)& 14 \\ \hline 9 & 工业(中国社会各阶级的分析)& 12 \\ \hline 10 & 小资产阶级(中国社会各阶级的分析) & 11 \\ \hline 11 & 劳动(中国社会各阶级的分析)& 9 \\ \hline 11 & 生产(中国社会各阶级的分析)& 9 \\ \hline 11 & 生活(中国社会各阶级的分析) & 9 \\ \hline 14 & 帝国主义(中国社会各阶级的分析)& 8 \\ \hline 14 & 军阀(中国社会各阶级的分析)& 8 \\ \hline 14 & 运动(中国社会各阶级的分析) & 8 \\ \hline 17 & 中产阶级(中国社会各阶级的分析)& 7 \\ \hline 17 & 工人(中国社会各阶级的分析)& 7 \\ \hline 17 & 手工业(中国社会各阶级的分析)& 7 \\ \hline 20 & 罢工(中国社会各阶级的分析) & 6 \\ \hline \end{array}\\
打算在最后做一个统计分析。
发表评论