|
|
2 anni fa | |
|---|---|---|
| src | 2 anni fa | |
| .editorconfig | 2 anni fa | |
| .gitignore | 2 anni fa | |
| README.md | 2 anni fa | |
| env.yaml | 2 anni fa |
待办列表
开发进度
从5118下载泛词(csv文件)
对泛词进行分词处理(cut.py)
根据词频获取拓展词
把所有拓展词合并到一个文件中(merge.py)
生成关键词文件,包含三个要素:序号、关键词、分词结果(key.py)
对关键词文件生成索引文件(key_index.py)
根据关键词文件生成倒排文件(key_reverse.py)
根据关键词文件、索引文件、倒排文件生成最终的聚合分析文件(agg_word.py)