|
@@ -1,10 +1,14 @@
|
|
|
# 开发记录
|
|
# 开发记录
|
|
|
|
|
|
|
|
-待办列表
|
|
|
|
|
-* 打开时恢复至上次的状态
|
|
|
|
|
-* 增加操作日志
|
|
|
|
|
-
|
|
|
|
|
-开发进度
|
|
|
|
|
|
|
+## 待办列表
|
|
|
|
|
+* 长尾词聚合增加使用多线程
|
|
|
|
|
+* 多进程多线程使用tqdm显示进度
|
|
|
|
|
+
|
|
|
|
|
+## 开发进度
|
|
|
|
|
+* 2024-01-16
|
|
|
|
|
+ - 增加使用redis,提高性能
|
|
|
|
|
+* 2023-12-15
|
|
|
|
|
+ - 项目重新启动
|
|
|
* 2023-07-05
|
|
* 2023-07-05
|
|
|
- 增加文件选择功能
|
|
- 增加文件选择功能
|
|
|
* 2023-07-06
|
|
* 2023-07-06
|
|
@@ -14,41 +18,15 @@
|
|
|
- 增加历史记录功能,能打开上一次的位置
|
|
- 增加历史记录功能,能打开上一次的位置
|
|
|
- 增加显示筛选数量和结果数量
|
|
- 增加显示筛选数量和结果数量
|
|
|
|
|
|
|
|
-# 待办日志
|
|
|
|
|
-1. 链式调用
|
|
|
|
|
-2. 聚合结果分析
|
|
|
|
|
-
|
|
|
|
|
-# 处理步骤
|
|
|
|
|
-
|
|
|
|
|
-1. 从5118下载泛词(csv文件)
|
|
|
|
|
-
|
|
|
|
|
-2. 对泛词进行分词处理(cut.py)
|
|
|
|
|
-
|
|
|
|
|
- * 分词和词频统计
|
|
|
|
|
- * 根据词频进行倒序排列
|
|
|
|
|
-
|
|
|
|
|
-3. 根据词频获取拓展词
|
|
|
|
|
-
|
|
|
|
|
-4. 把所有拓展词合并到一个文件中(merge.py)
|
|
|
|
|
-
|
|
|
|
|
-5. 生成关键词文件,包含三个要素:序号、关键词、分词结果(key.py)
|
|
|
|
|
-
|
|
|
|
|
-6. 对关键词文件生成索引文件(key_index.py)
|
|
|
|
|
-
|
|
|
|
|
-7. 根据关键词文件生成倒排文件(key_reverse.py)
|
|
|
|
|
-
|
|
|
|
|
-8. 根据关键词文件、索引文件、倒排文件生成最终的聚合分析文件(agg_word.py)
|
|
|
|
|
-
|
|
|
|
|
-
|
|
|
|
|
-# 进程相关
|
|
|
|
|
|
|
+## 进程相关
|
|
|
1. 普通的只有一个进程
|
|
1. 普通的只有一个进程
|
|
|
2. 普通使用ProcessPoolExecutor只有4个进程
|
|
2. 普通使用ProcessPoolExecutor只有4个进程
|
|
|
3. 如果使用Manager会额外多一个进程
|
|
3. 如果使用Manager会额外多一个进程
|
|
|
|
|
|
|
|
-# 文件位置相关
|
|
|
|
|
|
|
+## 文件位置相关
|
|
|
1. with open 与 mmap 读取到的每行的位置是一样的
|
|
1. with open 与 mmap 读取到的每行的位置是一样的
|
|
|
|
|
|
|
|
-# 文件读取速度比较
|
|
|
|
|
|
|
+## 文件读取速度比较
|
|
|
1. 从单进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
|
|
1. 从单进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
|
|
|
2. 从多进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
|
|
2. 从多进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
|
|
|
3. 仅以顺序读取同一个文件,with open 与 mmap 均是 单进程读取一次的速度 比 多进程读取一次要快,而且with open的差距更明显
|
|
3. 仅以顺序读取同一个文件,with open 与 mmap 均是 单进程读取一次的速度 比 多进程读取一次要快,而且with open的差距更明显
|