《贵耳集》服饰内容提取 · 操作日志
时间:2026-03-05 任务ID:batch4-4 任务:提取《贵耳集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/贵耳集
wc -l 贵耳集.txt → 596行
Step 2: 读取参考文件
- 参考/总结.md → 《吕氏春秋》服饰汇编格式(分类+表格总结)
- 参考/日志.md → 《晋会要》操作记录格式(步骤+关键发现+踩坑记录)
- 参考/原文提取.md → 《天工开物》原文提取格式(按类别编排+行号标注)
Step 3: Grep多轮搜索(6轮)
第1轮:基础服饰词
grep -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐" 贵耳集.txt
→ 命中大量行,含大量噪音(如"衣"在"衣食""宵衣"中的泛用)
第2轮:织料与带饰词
grep -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉" 贵耳集.txt
→ 命中行较多,"丝"字泛用(丝线、丝量)需过滤
第3轮:色彩与材质词
grep -n "缟|缁|素|赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠" 贵耳集.txt
→ 命中行极多,大量为非服饰用法(黄=黄色/黄州/黄庭坚等),需人工过滤
第4轮:冠服制度词
grep -n "簪|钗|钿|珥|步摇|冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服" 贵耳集.txt
→ 命中较少,祭服、朝服为高价值条目
第5轮:专有服饰词
grep -n "蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜" 贵耳集.txt
→ 命中幞头1条、玉带1条、金带1条,其余无
第6轮:补充词
grep -n "霞帔|翟衣|蚕服|黄阁|紫衫|凉衫|皂盖|扇|盖" 贵耳集.txt
→ 紫衫、凉衫为核心条目(L87)
grep -n "赭袍|龙袍|黄袍|朝服|公裳|公服|祭服|丧服|戎服|赐服|品色" 贵耳集.txt
→ 公裳1条(L431)、祭服1条(L73)、赭袍1条(L595)
grep -n "冠裳|布衣|白衣|青衣|缁徒|缁黄|衰绖" 贵耳集.txt
→ 冠裳1条(L419)、衰绖1条(L433)
Step 4: 噪音过滤
过滤原则:
- "衣"仅在"衣裳""衣锦""牛衣""典衣""青衣(衣服)""青褐""宵衣"等服饰语境中保留
- "黄/白/青/赤/黑"等颜色词仅在与服饰明确搭配时保留(如"黄袍""翠鬟绿衣")
- "金/银/玉/珠"仅在与饰物明确搭配时保留(如"玉带""金带""金凤钗")
- 排除纯人名(黄庭坚)、地名(黄州)、物名(黄金)等非服饰用法
过滤后保留条目:38条(见原文提取.md)
Step 5: 分类整理
按10大类整理:
- 服饰制度与变迁(4条)— 核心条目
- 冠服等级与象征(8条)
- 带饰与佩饰(5条)
- 丧服与礼制(2条)
- 衣料与纺织品(6条)
- 布衣与身份(3条)
- 巾冠首服(4条)
- 履袜鞋(3条)
- 车舆仪卫(2条)
- 服饰考证(1条)
Step 6: 保存三份文件
- 总结.md — 分类汇编+按语+总表(约18KB)
- 原文提取.md — 38条原文+行号标注(约15KB)
- 日志.md — 本文件
关键发现
- 南渡服制变迁为全书最核心之服饰史料:L87条记载渡江前"修帽护尘之服,衫帽凉衫为礼,紫衫戎服",渡江后"故制尽泯",为研究南宋服制断裂之重要依据
- 南北公裳袖制差异为宋金服饰比较之独特材料,L431条为仅见记载
- **二圣环(帽环)**条(L441)将服饰器物与政治讽谏结合,伶人"放在脑后"之语为著名典故
- 玉带、金带之记载反映宋代带饰等级制度与馈赠文化
- 祭服弊则焚之(L73)为礼制研究之重要引证
- 具带/带钩/犀毗考证(L565)涉及赵武灵王胡服骑射,为难得之服饰考证条目
噪音统计
| 关键词 | grep命中 | 服饰相关 | 噪音比例 |
|---|---|---|---|
| 衣 | ~30行 | 12条 | ~60% |
| 黄 | ~25行 | 3条 | ~88% |
| 金 | ~20行 | 3条 | ~85% |
| 玉 | ~15行 | 2条 | ~87% |
| 紫 | ~8行 | 2条 | ~75% |
| 巾 | ~5行 | 4条 | ~20% |
结论:颜色词和材质词噪音率最高,需逐条人工判断;冠服专用词(幞头、祭服、衰绖等)命中率接近100%。
审核结果
全部通过 ✅ — 原文均从《贵耳集》TXT中grep提取,有明确行号对应,无整本载入LLM。