研究总结 日志 原文

六十种曲昙花记 服饰内容提取日志

基本信息

提取流程

第一步:wc -l 查总行数

第二步:grep -n 提取服饰关键词行号

使用词库全量关键词(50字)执行 rg -n 匹配,共命中284行。

各关键词命中行数统计:

关键词 命中数 关键词 命中数 关键词 命中数
78 2 21
52 12 1
1 5 15
0 1 5
1 4 16
2 0 4
5 2 8
5 16 60
1 0 1
21 44 0
1 23 6
18 0 0
0 0 2
10 6 0
0 0 0
1 4 9
3 24 13
0 0

第三步:噪音过滤

第四步:有效服饰内容分类

经逐行审读,提取出有效服饰相关原文约80余条,按类别归入总结与原文提取文件。

第五步:输出三份MD

备注