Bez popisu

ChenYL 2b7187db2b 完善代码逻辑 před 1 rokem
src 2b7187db2b 完善代码逻辑 před 1 rokem
.editorconfig 97c406ebd0 修改项目结构;feat:提取5118长尾词数据;分词统计 před 1 rokem
.gitignore 68de1b2aa1 feat:优化调用方式为链式调用 před 1 rokem
README.md c7cbb03d78 feat:增加聚合结果分析界面 před 1 rokem
environment.yaml e8b06eb4d9 更新环境配置 před 1 rokem
start.bat 2d1ccec4f4 feat:优化界面代码 před 1 rokem

README.md

开发记录

执行命令

chcp 65001 && conda activate money-mining && python mining.py agg 数据目录路径

PySide6配置

PySide6 QtDesigner $FilePath$ $ProjectFileDir$

PySide6 UIC $FilePath$ -o $FileDir$\$FileNameWithoutExtension$.py $ProjectFileDir$

PySide6 RCC $FileName$ -o $FileNameWithoutExtension$.py $ProjectFileDir$

开发进度

  • 2024-01-18
    • 移除bitmap依赖包
    • 导出conda环境文件
    • 计算结果文件改为归档而不是删除
  • 2024-01-17
    • 增加多进程初始化
    • 长尾词聚合增加使用多线程
    • 多进程多线程使用tqdm显示进度
  • 2024-01-16
    • 增加使用redis,提高性能
  • 2023-12-15
    • 项目重新启动
  • 2023-07-05
    • 增加文件选择功能
  • 2023-07-06
    • 增加正则匹配不限制位置
  • 2023-07-08
    • 增加支持4级筛选;调整界面结构,增大结果区域
    • 增加历史记录功能,能打开上一次的位置
    • 增加显示筛选数量和结果数量

进程相关

  1. 普通的只有一个进程
  2. 普通使用ProcessPoolExecutor只有4个进程
  3. 如果使用Manager会额外多一个进程

文件位置相关

  1. with open 与 mmap 读取到的每行的位置是一样的

文件读取速度比较

  1. 从单进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
  2. 从多进程的角度看:仅以顺序读文件来说mmap的速度快很多,如果对内容进行编码,速度也较with open快一点
  3. 仅以顺序读取同一个文件,with open 与 mmap 均是 单进程读取一次的速度 比 多进程读取一次要快,而且with open的差距更明显
  4. 多进程分段读取中 mmap比with open快很多,with open非常的慢
  5. 总结:
    • mmap(单)>>mmap(单,对内容进行编码)>with open(单)
    • mmap(多)>>mmap(多,对内容进行编码)>with open(多)
    • (这个结论没啥用处,因为多进程一般是完成不同的任务)仅以顺序读取同一个文件,with open 与 mmap 均是 单进程读取一次的速度 比 多进程读取一次要快,而且with open的差距更明显
    • 多进程分段读取中 mmap比with open快很多,with open非常的慢

conda命令

conda环境重命名(复制一个新的环境,然后把旧的环境删除)

conda create -n tf --clone rcnn #把环境 rcnn 重命名成 tf
conda remove -n rcnn --all