六十种曲焚香记 服饰提取日志

处理信息

处理步骤

  1. wc -l 统计文件行数:921行
  2. 使用关键词词库逐行匹配服饰相关内容
  3. 提取匹配行及上下文(前后各1行)
  4. 过滤空行等噪音
  5. 识别高置信度服饰词组(241个)
  6. 按服饰类别分类
  7. 生成总结、原文提取、日志三份MD文件

单字关键词频次

关键字 频次
22
19
18
18
16
14
12
10
10
10
10
7
7
5
5
4
3
3
2
2
2
2
2
2
2

服饰条目行号分布

行号范围 条目数
1-200 39
201-400 31
401-600 31
601-800 36
801-1000 15

数据质量说明