研究总结 日志 原文

才调集 服饰内容提取日志

基本信息

处理流程

Step 1: wc统计

3605行 229375字节

中等规模文件,可全量处理。

Step 2: 五轮grep -c统计

轮次 关键词类别 匹配行数
1 核心词 392
2 材质 202
3 色彩纹饰 532
4 制度 0
5 配饰 64

Step 3: 详细grep + sed提取

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

匹配392行,数量极大。采用2字词组精筛策略:

第2轮:材质(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

匹配202行,筛选后服饰相关约10条:

第3轮:色彩纹饰

匹配532行,筛选后服饰相关约15条:

第4轮:制度

匹配0行("服赐""赐服""赐紫""品色"等精确词组无匹配) 但通过第1轮扩展检索发现:

第5轮:配饰

匹配64行,筛选后服饰相关约15条:

Step 4: 筛选结果

经5轮检索+扩展精筛+人工审查,共筛选出服饰相关条目约80条,分为6大类:

  1. 官服制度类 6条
  2. 女性服饰类 约30条
  3. 男性服饰类 约15条
  4. 佩饰/腰带类 约12条
  5. 军旅/征役服饰 约5条
  6. 宗教服饰 2条

Step 5: 审查备注