# -*- coding:utf-8 -*- # 文件编码格式 ENCODING_CHARSET = "UTF-8" # 分词与词频统计 CUT_FILE = "./data/tmp/cut.csv" # 拓展词合并文件 MERGE_FILE = "./data/tmp/merge.csv" # 排除合并的文件 MERGE_EXCLUDE_FILES = ['打开乱码如何处理?.txt'] # 关键词文件(包含三要素:序号、关键词、词根) KEY_FILE = "./data/tmp/key.csv" # 关键词索引文件(包含两个要素:关键词序号、在文件中的位置)(暂时弃用) KEY_INDEX_FILE = "./data/tmp/key_index.csv" # 关键词索引模型 缓存 (包含两个要素:关键词序号、在文件中的位置) KEY_INDEX_CACHE = "./data/cache/key_index.pkl" # 关键词倒排文件(包含两个要素:词根、关键词序号) KEY_REVERSE_FILE = "./data/tmp/key_reverse.csv" # 关键词倒排索引模型 缓存 (包含两个要素:词根、位置) KEY_REVERSE_INDEX_CACHE = "./data/cache/key_reverse_index.pkl" # 关键词倒排文件 数据统计 (包含两个要素:词根,涉及的关键词数量) KEY_REVERSE_STATISTICS_FILE = "./data/tmp/key_reverse_statistics.csv" # 关键词倒排索引热点 缓存 (包含两个要素:词根、位置) KEY_REVERSE_INDEX_HOT_CACHE = "./data/cache/key_reverse_index_hot.pkl" # 最终的聚合分析结果存放文件 AGG_ANALYSE_FILE = "./data/analyse/%s.csv" # 聚合结果 AGG_FILE = "./data/agg_analyse.csv" # 停用词存放文件夹 STOP_WORD_DIR = "./data/stopwords" # 停用词模型 缓存 STOP_WORD_CACHE = "./data/cache/stop_word.pkl" # 分析BITMAP模型 缓存 ANALYSE_BITMAP_CACHE = "./data/cache/analyse_bitmap.pkl" # 分析进度模型 缓存 ANALYSE_PROCESS_CACHE = "./data/cache/analyse_process.pkl" # 正则表达式中需要额外处理的特殊符号 # RE_SPECIAL_SIMBOL = "'.', '?', '^', '$', '*', '+', '\\', '[', ']', '|', '{', '}', '(', ')" RE_SPECIAL_SIMBOL = [".", "?", "^", "$", "*", "+", "\\", "[", "]", "|", "{", "}", "(", ")"] # 百分比进度提示 PRECENT_TIPS = 0.01 # 正则提取关键词表中的信息 KEY_RE_PATTERAN = r"(\d+),([^,]*),(.*)"