# -*- coding:utf-8 -*-

# 文件编码格式
ENCODING_CHARSET = "UTF-8"

# 分词与词频统计
CUT_FILE = "./data/tmp/cut.csv"

# 拓展词合并文件
MERGE_FILE = "./data/tmp/merge.csv"

# 排除合并的文件
MERGE_EXCLUDE_FILES = ['打开乱码如何处理？.txt']

# 关键词文件（包含三要素：序号、关键词、词根）
KEY_FILE = "./data/tmp/key.csv"

# 关键词索引文件（包含两个要素：关键词序号、在文件中的位置）（暂时弃用）
KEY_INDEX_FILE = "./data/tmp/key_index.csv"

# 关键词索引模型 缓存 （包含两个要素：关键词序号、在文件中的位置）
KEY_INDEX_CACHE = "./data/cache/key_index.pkl"

# 关键词倒排文件（包含两个要素：词根、关键词序号）
KEY_REVERSE_FILE = "./data/tmp/key_reverse.csv"

# 关键词倒排索引模型 缓存 （包含两个要素：词根、位置）
KEY_REVERSE_INDEX_CACHE = "./data/cache/key_reverse_index.pkl"

# 关键词倒排文件 数据统计 （包含两个要素：词根，涉及的关键词数量）
KEY_REVERSE_STATISTICS_FILE = "./data/tmp/key_reverse_statistics.csv"

# 关键词倒排索引热点 缓存 （包含两个要素：词根、位置）
KEY_REVERSE_INDEX_HOT_CACHE = "./data/cache/key_reverse_index_hot.pkl"

# 最终的聚合分析结果存放文件
AGG_ANALYSE_FILE = "./data/analyse/%s.csv"

# 聚合结果
AGG_FILE = "./data/agg_analyse.csv"

# 停用词存放文件夹
STOP_WORD_DIR = "./data/stopwords"

# 停用词模型 缓存
STOP_WORD_CACHE = "./data/cache/stop_word.pkl"

# 分析BITMAP模型 缓存
ANALYSE_BITMAP_CACHE = "./data/cache/analyse_bitmap.pkl"

# 分析进度模型 缓存
ANALYSE_PROCESS_CACHE = "./data/cache/analyse_process.pkl"

# 正则表达式中需要额外处理的特殊符号
# RE_SPECIAL_SIMBOL = "'.', '?', '^', '$', '*', '+', '\\', '[', ']', '|', '{', '}', '(', ')"
RE_SPECIAL_SIMBOL = [".", "?", "^", "$", "*", "+", "\\", "[", "]", "|", "{", "}", "(", ")"]

# 百分比进度提示
PRECENT_TIPS = 0.01

# 正则提取关键词表中的信息
KEY_RE_PATTERAN = r"(\d+),([^,]*),(.*)"