研究总结 日志 原文

《类聚名贤乐府群玉》服饰提取日志

基本信息

处理流程

步骤1:总行数统计

wc -l → 1640行

步骤2:服饰关键词grep检索

使用47个服饰关键词进行全文件grep,结果如下:

关键词 命中行数 关键词 命中行数 关键词 命中行数
42 12 28
7 13 0
5 61 1
25 78 38
8 6 21
4 11 5
1 40 2
8 4 0
4 3 0
0 11 0
1 0 0
2 0 0
0 0 1
10 1 15
18 6 3
1 1 1
0 2 0
10 5

合计命中行数:309行(含重复行)

未出现的关键词:屦、绢、缎、缯、绶、绂、黼、黻、鹖、帻、弁、裾、珥

步骤3:噪音过滤

3.1 曲牌名噪音

以下曲牌名含服饰关键词,但属固定名称,非服饰描写,已过滤:

曲牌名 出现次数 含服饰词
红绣鞋 约10次 绣、鞋
朱履曲 2次
红锦袍 2次 锦、袍

纯曲牌名行(短行≤15字符)已全部排除:

3.2 非服饰语义噪音

3.3 地名/人名噪音

步骤4:有效条目统计

经噪音过滤后:

步骤5:输出文件

文件名 内容 大小
类聚名贤乐府群玉_总结.md 服饰内容分类总结 待验证
类聚名贤乐府群玉_原文提取.md 按类别引录原文 待验证
类聚名贤乐府群玉_日志.md 本处理日志 待验证

关键规则遵守情况