2 rokov pred · dc6e90fa85
--- a/README.md
+++ b/README.md
@@ -1,10 +1,14 @@
 
															 # 开发记录
														
 
															-待办列表
														
 
															-* 打开时恢复至上次的状态
														
 
															-* 增加操作日志
														
 
															-
														
 
															-开发进度
														
 
															+## 待办列表
														
 
															+* 长尾词聚合增加使用多线程
														
 
															+* 多进程多线程使用tqdm显示进度
														
 
															+
														
 
															+## 开发进度
														
 
															+* 2024-01-16
														
 
															+  - 增加使用redis，提高性能 
														
 
															+* 2023-12-15
														
 
															+  - 项目重新启动
														
 
															 * 2023-07-05
														
 
															   - 增加文件选择功能
														
 
															 * 2023-07-06 
														
@@ -14,41 +18,15 @@
 
															   - 增加历史记录功能，能打开上一次的位置
														
 
															   - 增加显示筛选数量和结果数量
														
 
															-# 待办日志
														
 
															-1. 链式调用
														
 
															-2. 聚合结果分析
														
 
															-
														
 
															-# 处理步骤
														
 
															-
														
 
															-1. 从5118下载泛词（csv文件）
														
 
															-
														
 
															-2. 对泛词进行分词处理（cut.py）
														
 
															-
														
 
															-  * 分词和词频统计
														
 
															-  * 根据词频进行倒序排列
														
 
															-
														
 
															-3. 根据词频获取拓展词
														
 
															-
														
 
															-4. 把所有拓展词合并到一个文件中（merge.py）
														
 
															-
														
 
															-5. 生成关键词文件，包含三个要素：序号、关键词、分词结果（key.py）
														
 
															-
														
 
															-6. 对关键词文件生成索引文件（key_index.py）
														
 
															-
														
 
															-7. 根据关键词文件生成倒排文件（key_reverse.py）
														
 
															-
														
 
															-8. 根据关键词文件、索引文件、倒排文件生成最终的聚合分析文件（agg_word.py）
														
 
															-
														
 
															-
														
 
															-# 进程相关
														
 
															+## 进程相关
														
 
															 1. 普通的只有一个进程
														
 
															 2. 普通使用ProcessPoolExecutor只有4个进程
														
 
															 3. 如果使用Manager会额外多一个进程
														
 
															-# 文件位置相关
														
 
															+## 文件位置相关
														
 
															 1. with open 与 mmap 读取到的每行的位置是一样的
														
 
															-# 文件读取速度比较
														
 
															+## 文件读取速度比较
														
 
															 1. 从单进程的角度看：仅以顺序读文件来说mmap的速度快很多，如果对内容进行编码，速度也较with open快一点
														
 
															 2. 从多进程的角度看：仅以顺序读文件来说mmap的速度快很多，如果对内容进行编码，速度也较with open快一点
														
 
															 3. 仅以顺序读取同一个文件，with open 与 mmap 均是 单进程读取一次的速度 比 多进程读取一次要快，而且with open的差距更明显