| 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162 |
- # -*- coding:utf-8 -*-
- # 文件编码格式
- ENCODING_CHARSET = "UTF-8"
- # 分词与词频统计
- CUT_FILE = "./data/tmp/cut.csv"
- # 拓展词合并文件
- MERGE_FILE = "./data/tmp/merge.csv"
- # 排除合并的文件
- MERGE_EXCLUDE_FILES = ['打开乱码如何处理?.txt']
- # 关键词文件(包含三要素:序号、关键词、词根)
- KEY_FILE = "./data/tmp/key.csv"
- # 关键词索引文件(包含两个要素:关键词序号、在文件中的位置)(暂时弃用)
- KEY_INDEX_FILE = "./data/tmp/key_index.csv"
- # 关键词索引模型 缓存 (包含两个要素:关键词序号、在文件中的位置)
- KEY_INDEX_CACHE = "./data/cache/key_index.pkl"
- # 关键词倒排文件(包含两个要素:词根、关键词序号)
- KEY_REVERSE_FILE = "./data/tmp/key_reverse.csv"
- # 关键词倒排索引模型 缓存 (包含两个要素:词根、位置)
- KEY_REVERSE_INDEX_CACHE = "./data/cache/key_reverse_index.pkl"
- # 关键词倒排文件 数据统计 (包含两个要素:词根,涉及的关键词数量)
- KEY_REVERSE_STATISTICS_FILE = "./data/tmp/key_reverse_statistics.csv"
- # 关键词倒排索引热点 缓存 (包含两个要素:词根、位置)
- KEY_REVERSE_INDEX_HOT_CACHE = "./data/cache/key_reverse_index_hot.pkl"
- # 最终的聚合分析结果存放文件
- AGG_ANALYSE_FILE = "./data/analyse/%s.csv"
- # 聚合结果
- AGG_FILE = "./data/agg_analyse.csv"
- # 停用词存放文件夹
- STOP_WORD_DIR = "./data/stopwords"
- # 停用词模型 缓存
- STOP_WORD_CACHE = "./data/cache/stop_word.pkl"
- # 分析BITMAP模型 缓存
- ANALYSE_BITMAP_CACHE = "./data/cache/analyse_bitmap.pkl"
- # 分析进度模型 缓存
- ANALYSE_PROCESS_CACHE = "./data/cache/analyse_process.pkl"
- # 正则表达式中需要额外处理的特殊符号
- # RE_SPECIAL_SIMBOL = "'.', '?', '^', '$', '*', '+', '\\', '[', ']', '|', '{', '}', '(', ')"
- RE_SPECIAL_SIMBOL = [".", "?", "^", "$", "*", "+", "\\", "[", "]", "|", "{", "}", "(", ")"]
- # 百分比进度提示
- PRECENT_TIPS = 0.01
- # 正则提取关键词表中的信息
- KEY_RE_PATTERAN = r"(\d+),([^,]*),(.*)"
|