研究总结 日志 原文

《王司马集》服饰提取日志

任务信息


工作流程记录

第1步:创建输出目录

mkdir -p /home/z/my-project/upload/四库别集output/王司马集/

第2步:wc -l

856 /home/z/my-project/upload/四库别集/王司马集.txt

第3步:五轮grep -n搜索

轮次 关键词 命中行数(去重前)
第1轮 衣裳冠帽履袍裘带佩簪钗裙褐衫袂襟裾帼缨绶绂舄屦 ~95行
第2轮 罗锦绫绢帛绸缎纻纱绡缣絁葛 ~45行
第3轮 金银玉珠翠宝钿钗簪珰环佩饰妆梳黛脂粉 ~120行
第4轮 黄帔道袍衲袈禅衣法服仙衣帔氅褐缁 + 柘袍龙火衣紫衣绯赭御衣赐衣朝服公服官服章服品服 ~25行
第5轮 带巾幞裹帕扇伞盖旗旌旆幡帷幄帐幕帘幔 ~85行

第4步:sed提取关键行原文

提取约109行原文进行逐行审查。

第5步:对抗式审查过滤

剔除规则

  1. 纯编辑/序跋内容中的服饰提及(L5、L16的校勘说明)
  2. "衣食"泛指(L87、L93、L203、L217)——仅保留有具体服饰描写者
  3. 纯比喻用法(L85"弊帷/新衣"为人生比喻)
  4. 非服饰义项(L297"葛面"为食物、L470"绢写方书"为书写材料、L109"扇"为用具非服饰)
  5. 重复条目标注(L791黄帔在宫人/宗教两节均出现,标注"重出")
  6. 窜入他人作品的条目(L825杜牧、L832白居易、L836王昌龄)保留但注明原作者

审查结果

典型剔除案例


输出文件

文件名 大小 内容
王司马集_原文提取.md ~18KB 8大类80条服饰原文,关键词加粗
王司马集_总结.md ~8KB 核心发现、分类统计、词汇考释
王司马集_日志.md ~4KB 本文件

最终统计


日志完成。