研究总结 日志 原文

《曲海总目提要》服饰提取日志

基本信息

项目 内容
书名 曲海总目提要
输入文件 /home/z/my-project/upload/剧曲/剧曲/曲海总目提要.txt
输出目录 /home/z/my-project/upload/剧曲output/曲海总目提要/
文件编码 UTF-8(含CRLF换行)
总行数 6745
处理时间 2026-05-11 10:50:46

处理流程

第一步:统计文件

第二步:关键词grep

使用47个服饰关键词逐一grep:

初始命中行数:1173行(占全书17.4%)

关键词命中分布(前10):

关键词 命中行数
360
188
152
134
130
128
81
72
58
57

第三步:噪音过滤

识别并过滤以下噪音类型:

  1. :地带、带领、带兵、带有 → 过滤,仅保留玉带、金带、犀带等服饰用法
  2. :布置、分布、宣布、布施、布袋 → 过滤,仅保留布衣、布袄等服饰用法
  3. :冠军、冠以 → 过滤,仅保留冠带、加冠、玉芙蓉冠等服饰用法
  4. :练习、训练 → 过滤
  5. :篇幅、幅员 → 过滤,仅保留裙幅等
  6. :钦佩、敬佩 → 过滤,仅保留佩玉、环佩等
  7. :环境、环绕、循环 → 过滤,仅保留玉环、银环等
  8. :帐目、帐户 → 过滤,仅保留帷帐、五色帐等

过滤后高置信度服饰内容行:362行

第四步:分类整理

使用Python进行分类,将362行内容归入以下类别:

第五步:精选输出

从362行中精选最具服饰史料价值的条目,按类别组织输出。 同时收录含服饰关键词的剧目名47种。

输出文件

文件 大小 说明
曲海总目提要_总结.md ~4KB 服饰内容分类总结
曲海总目提要_原文提取.md ~8KB 原文关键段落提取
曲海总目提要_日志.md ~3KB 本处理日志

质量控制

备注