研究总结 日志 原文

《鸿庆居士集》服饰提取日志

提取信息

提取流程

第1步:行数统计

wc -l → 3113行

第2步:8轮关键词grep(使用python处理编码兼容性)

轮次 关键词组 初始命中 去伪后
冕弁帻帽巾幞头进贤冠 169 16
衣裳袍衫袄褂襦褐裘袈裟 183 18
裙裤履舄靴袜鞋 116 15
玉带金带银带鱼袋笏绶佩 47 12
锦绮帛绢绫罗缎绸缂纱 71 10
缣缯棉葛 19 3
染绣黼黻绯章服赭 31 6
赐服赐衣赐紫赐绯赐袍赐带 12 6

第3步:去伪审查

①冠帽类排除项

②衣裳类排除项

③履鞋类排除项

④带佩类排除项

⑤绫罗类排除项

⑥丝麻类排除项

⑦染绣类排除项

⑧赐服类:12条中6条为真实赐服记录,另6条含"赐"字但非赐服

第4步:最终确认

数据质量说明