|
|
пре 2 година | |
|---|---|---|
| src | пре 2 година | |
| .editorconfig | пре 2 година | |
| .gitignore | пре 2 година | |
| README.md | пре 2 година | |
| env.yaml | пре 2 година |
待办列表
开发进度
从5118下载泛词(csv文件)
对泛词进行分词处理(cut.py)
根据词频获取拓展词
把所有拓展词合并到一个文件中(merge.py)
生成关键词文件,包含三个要素:序号、关键词、分词结果(key.py)
对关键词文件生成索引文件(key_index.py)
根据关键词文件生成倒排文件(key_reverse.py)
根据关键词文件、索引文件、倒排文件生成最终的聚合分析文件(agg_word.py)