研究总结 日志 原文

文氏五家集 服饰内容提取日志

基本信息

处理流程

Step 1: wc统计

2801行 268399字节

中等规模文件,可全量处理。

Step 2: 五轮grep统计

轮次 关键词类别 匹配行数
1 核心词 419
2 材质 198
3 色彩纹饰 726
4 制度 4
5 配饰 19

Step 3: 详细grep+sed提取

采用2字词组精筛+分类检索策略:

衣字词组检索:约18条有效

冠帽类检索:约7条有效

裙衫袍类检索:约5条有效

制度类检索:3条有效

簪钗钿环类:3条有效

佩绶带类:约5条有效

蓑笠/鞋屐类:2条有效

袈裟类:2条有效

Step 4: 筛选结果

共筛选出服饰相关条目约35条,分为7类。

Step 5: 审查备注