|
|
преди 2 години | |
|---|---|---|
| src | преди 2 години | |
| .editorconfig | преди 2 години | |
| .gitignore | преди 2 години | |
| README.md | преди 2 години | |
| env.yaml | преди 2 години |
待办列表
开发进度
从5118下载泛词(csv文件)
对泛词进行分词处理(cut.py)
根据词频获取拓展词
把所有拓展词合并到一个文件中(merge.py)
生成关键词文件,包含三个要素:序号、关键词、分词结果(key.py)
对关键词文件生成索引文件(key_index.py)
根据关键词文件生成倒排文件(key_reverse.py)
根据关键词文件、索引文件、倒排文件生成最终的聚合分析文件(agg_word.py)