config.py 2.0 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162
  1. # -*- coding:utf-8 -*-
  2. # 文件编码格式
  3. ENCODING_CHARSET = "UTF-8"
  4. # 分词与词频统计
  5. CUT_FILE = "./data/tmp/cut.csv"
  6. # 拓展词合并文件
  7. MERGE_FILE = "./data/tmp/merge.csv"
  8. # 排除合并的文件
  9. MERGE_EXCLUDE_FILES = ['打开乱码如何处理?.txt']
  10. # 关键词文件(包含三要素:序号、关键词、词根)
  11. KEY_FILE = "./data/tmp/key.csv"
  12. # 关键词索引文件(包含两个要素:关键词序号、在文件中的位置)(暂时弃用)
  13. KEY_INDEX_FILE = "./data/tmp/key_index.csv"
  14. # 关键词索引模型 缓存 (包含两个要素:关键词序号、在文件中的位置)
  15. KEY_INDEX_CACHE = "./data/cache/key_index.pkl"
  16. # 关键词倒排文件(包含两个要素:词根、关键词序号)
  17. KEY_REVERSE_FILE = "./data/tmp/key_reverse.csv"
  18. # 关键词倒排索引模型 缓存 (包含两个要素:词根、位置)
  19. KEY_REVERSE_INDEX_CACHE = "./data/cache/key_reverse_index.pkl"
  20. # 关键词倒排文件 数据统计 (包含两个要素:词根,涉及的关键词数量)
  21. KEY_REVERSE_STATISTICS_FILE = "./data/tmp/key_reverse_statistics.csv"
  22. # 关键词倒排索引热点 缓存 (包含两个要素:词根、位置)
  23. KEY_REVERSE_INDEX_HOT_CACHE = "./data/cache/key_reverse_index_hot.pkl"
  24. # 最终的聚合分析结果存放文件
  25. AGG_ANALYSE_FILE = "./data/analyse/%s.csv"
  26. # 聚合结果
  27. AGG_FILE = "./data/agg_analyse.csv"
  28. # 停用词存放文件夹
  29. STOP_WORD_DIR = "./data/stopwords"
  30. # 停用词模型 缓存
  31. STOP_WORD_CACHE = "./data/cache/stop_word.pkl"
  32. # 分析BITMAP模型 缓存
  33. ANALYSE_BITMAP_CACHE = "./data/cache/analyse_bitmap.pkl"
  34. # 分析进度模型 缓存
  35. ANALYSE_PROCESS_CACHE = "./data/cache/analyse_process.pkl"
  36. # 正则表达式中需要额外处理的特殊符号
  37. # RE_SPECIAL_SIMBOL = "'.', '?', '^', '$', '*', '+', '\\', '[', ']', '|', '{', '}', '(', ')"
  38. RE_SPECIAL_SIMBOL = [".", "?", "^", "$", "*", "+", "\\", "[", "]", "|", "{", "}", "(", ")"]
  39. # 百分比进度提示
  40. PRECENT_TIPS = 0.01
  41. # 正则提取关键词表中的信息
  42. KEY_RE_PATTERAN = r"(\d+),([^,]*),(.*)"