汉官六种·服饰提取日志
任务信息
| 项目 | 内容 |
|---|---|
| 书名 | 汉官六种 |
| 源文件 | /home/z/my-project/upload/part3/汉官六种.txt |
| 文件大小 | 304KB |
| 总行数 | 2030行 |
| 输出目录 | /home/z/my-project/upload/33output/汉官六种/ |
| 执行时间 | 2025年 |
提取流程
Step 1:粗筛关键词
使用ripgrep对70+服饰关键词进行全文扫描:
关键词集:衣裳裘冠冕弁佩带绶笏袍褐布帛锦绮绢绸缎绫罗纱丝绣织染衮章服裙袄裤履舄靴鞋帽巾幞簪钗钿环珮玉金银珠服色冠服舆服赐服朝服公服常服丧服祭服蟒袍补子霞帔凤冠深衣大带革带蔽膝鱼袋幞头乌纱顶戴花翎朝珠铠甲
初筛结果:278行命中
Step 2:精筛去噪
对初筛结果进行分析,发现"金""玉""布""丝"等字泛化匹配过多(如"金印""玉玺""布告"等非服饰语境),遂调整关键词策略:
- 删除泛化词:金、玉、银、珠、布、丝(仅在组合词中保留,如"金银缕""布帛""丝絮")
- 增加专有词:帻、缇、缃、绀、绛、皁、玄、纁、纱縠、虎文锦、紫緺、青緺、赤绂、鹖尾、金珰、貂蝉、獬豸、尚冠、尚衣、五时衣等
精筛结果:约80处有效服饰记载
Step 3:分类提取
将有效记载按九大类归整:
- 冠冕类(含8子类:天子冠、百官冠、法冠、高山冠、貂蝉冠、鹖冠、章甫冠、冠服大小制)
- 衣服类(含7子类:法服、朝服、戎服、虎贲服、皇后服、帷帐、丧葬服)
- 帻制(6种帻色对应身份场合)
- 佩绶类(含4子类:皇帝绶、官印绶制、授予礼仪、佩饰)
- 履舄类
- 织物类(蚕桑→织室→成品链条)
- 五兵甲铠
- 省中五尚
- 皇后卤簿服饰
Step 4:产出文件
- 汉官六种_总结.md:体系化分析,含表格对比与核心发现
- 汉官六种_原文提取.md:按类别摘录原文,保留行号
- 汉官六种_日志.md:本文件
数据统计
| 类别 | 原文条目数 | 主要行号区间 |
|---|---|---|
| 冠冕 | ~25条 | 214-1710 |
| 衣裳 | ~20条 | 265-2019 |
| 帻制 | ~8条 | 348-906 |
| 佩绶 | ~18条 | 54-1936 |
| 履舄 | ~5条 | 348-1677 |
| 织物 | ~10条 | 362-949 |
| 甲兵 | ~3条 | 473-949 |
| 其他 | ~5条 | 825-2018 |
对抗式审核记录
审核项1:是否存在过度提取?
检查:逐条核实80处提取是否均为服饰语境。 结果:已排除"金印""玉玺""布告""丝路"等非服饰语境。保留的"金珰""玉襦""缇缯"等均为服饰用例。通过。
审核项2:是否存在遗漏?
检查:对未命中关键词的段落进行抽样核查。 结果:行1033"獬豸兽性触不直,故执宪者以其角形为冠"——已收录。行943"方相氏蒙虎皮,黄金四目,玄衣丹裳"——已收录。行825"尚冠、尚衣"——已收录。无明显遗漏。
审核项3:行号是否准确?
检查:随机抽查10条原文行号。 结果:行277"诸侯衣玄端之衣"✓、行348"乘舆冠高山冠"✓、行543"凡斋绀帻"✓、行783"平冕七旒"✓、行1045"纱縠单衣"✓、行1162"冠两鹖尾"✓、行1220"貂蝉"✓、行1254"五时衣赐尚书令"✓、行1710"天子冠通天"✓、行1936"赤绂玉玺"✓。全部正确。
审核项4:文件大小是否≤20KB?
检查:三个文件字数估算。
- 总结.md:约6KB ✓
- 原文提取.md:约12KB ✓
- 日志.md:约4KB ✓ 均在20KB以内。
已知局限
- 本书为辑佚文献,原文残缺较多,多处有"案:当有脱字"等校勘标注,提取时保留原貌未做推测性补全
- "虎绵"(行1045)字迹存疑,可能是"虎衣"或"虎文"之误,暂照录
- 部分服饰描写嵌入长段礼仪叙述中,提取时做了适当剪裁,仅保留服饰相关部分
- 亡新(王莽新朝)改制内容标注清晰,未与东汉制度混同