研究总结 日志 原文

盛明杂剧初集二集 · 服饰提取日志

基本信息

处理流程

第1步:查总行数

第2步:多轮grep提取服饰关键词行号

各关键词命中行数统计

关键词 行数 关键词 行数 关键词 行数
273 27 86
230 64 37
2 50 28
2 1 14
5 19 65
25 3 6
22 4 33
43 29 153
53 5 18
167 140 15
36 62 56
77 12 7
1 2 14
37 6 0
0 0 0
3 4 74
4 50 33
7 2

零命中关键词

绂、黼、黻、鹖:全文无命中

第3步:上下文提取与噪音过滤

  1. 提取命中行±1行上下文,共3427行

  2. 将命中行分为三类:

    • 服饰行(616行):含高置信度服饰关键词或明确服饰语境
    • 边界行(656行):含歧义关键词(带、丝、锦、绣等),需进一步判别
    • 噪音行(20行):关键词出现在非服饰语境
  3. 对边界行二次分类:

    • 回收为服饰行:601行(含衣冠、锦衣、罗衫等明确服饰搭配)
    • 确认为噪音:55行(含锦标[隐喻]、旗亭[地名]、波罗蜜[佛语]等)
  4. 合并去重后:有效服饰行1217行

  5. 显著性筛选:从1217行中筛选含明确服饰描述的显著行472条

    • 筛选标准:含具体服饰名称(如锦袍、罗裙、峨冠)、穿戴动词(穿/脱/换/披/整)、多关键词共现(≥3个)、服饰搭配组合

第4步:剧目归属

全书60个剧目均含服饰相关内容,分布如下(按命中数排序,取前15):

剧目 显著服饰行数
死里逃生 43
男王后 23
昆仑奴 16
丹桂钿合 12
广陵月 13
红莲债 12
花舫缘 9
曲江春 16
红线女 15
不伏老 19
郁轮袍 11
夭桃纨扇 14
女状元 13
团花凤 10
相思谱 9

第5步:输出文件生成

  1. 盛明杂剧初集二集_总结.md(≤20KB)

    • 全书概况、关键词统计、类别分析、代表剧目、特色总结
  2. 盛明杂剧初集二集_原文提取.md(≤20KB)

    • 按剧目排列,每条标注行号及命中关键词
    • ▶标记关键词命中行,含±1行上下文
  3. 盛明杂剧初集二集_日志.md(≤20KB)

    • 完整处理流程记录

质量控制