《雪堂集》服饰内容提取 · 操作日志
时间:2026-04-19 任务ID: batch20-5 操作:从《雪堂集》TXT提取服饰相关内容,产出3个MD
操作流程
Step 0: 准备工作
mkdir -p /home/z/my-project/upload/四库别集output/雪堂集
wc -l 雪堂集.txt → 4241行
wc -c 雪堂集.txt → 458,026字节
Step 1: 读取参考文件
读取 /home/z/my-project/upload/参考/ 下三个MD文件
- 总结.md:吕氏春秋服饰总结(分类体系参考)
- 日志.md:晋会要提取日志(操作流程参考)
- 原文提取.md:天工开物原文提取(格式参考)
Step 2: grep多轮搜索(6组关键词)
第1组:衣裳裘冠冕弁帻巾帽 → 129行
第2组:袍衫裙裤褐衮绶佩笏带 → 72行
第3组:锦绮绢帛丝绸缎绫罗纱绉缟缁 → 99行
第4组:素赤青黄白黑朱紫绯绿翠 → 405行(大量噪音,颜色词过于通用)
第5组:金银玉珠簪钗钿珥步摇 → 174行
第6组:复合词(冠服/舆服/朝服/蟒衣/革带/玉带/幞头/乌纱等) → 24行
Step 3: 精细搜索与噪音过滤
3a. 组合服饰词汇搜索(衮衣/单衣/白衣/衣冠/布衣/衣裳等)→ 大量结果
3b. 高级服饰词汇搜索(簪珥/豸绣/袍襟等)→ 少量精确结果
3c. 材质色彩词汇搜索 → 需大量过滤
噪音来源:
- "衣"用于人名、地名(如"衣带水"喻河流狭窄)
- "冠"用于"冠绝""冠军"等动词用法
- "丝"用于"丝竹""丝萝"等非服饰用法
- "罗"用于"张罗""星罗"等非织物用法
- "素"用于"素来""素心"等非色彩用法
- "白""青""黄"等颜色词大量出现在山水诗中
- "佩""带"大量作动词使用
- "金""玉""珠"大量用于比喻("玉雪可念""玉楼"等)
Step 4: 分类整理
有效服饰条目按以下分类:
1. 诗歌服饰意象(单衣/寒衣/春衣/裘/绵等)→ 15条
2. 妇女服饰(衣裾簪珥/翚翟簪缦/衣纫于袆等)→ 4条
3. 官员服饰(豸绣/衮衣/袍襟等)→ 3条
4. 典故引用(羔羊/白衣冠/解衣盘礴等)→ 5条
5. 隐逸服饰(薜萝代衣/白衣还)→ 2条
6. 风尚批判(广冠大袖/窄帽秃衫/绫文刺等)→ 2条
7. 纺织材料(吴绵/绢素/紫丝)→ 3条
Step 5: 写出3个MD
总结.md → 分类总表+核心发现+比较+总结(约6KB)
原文提取.md → 按类列出原文+行号+注释(约8KB)
日志.md → 本文件(约3KB)
三个文件均 < 20KB ✓
关键发现
- 《雪堂集》无系统性服饰制度记载,全部为文学性散见内容
- 最有价值的三条:
- "翚翟簪缦相鲜华"——明末命妇盛装实写
- "衣裾簪珥日异月新"——杭城妇女时尚浮华
- "广冠大袖必有窄帽秃衫"——以服制变迁论文学史
- 豸绣为明代御史补服标志,行状中朝参场景提供了具体使用语境
- 大量"衣"字为诗歌意象而非服饰实体描写
踩坑记录
- 颜色词(素赤青黄白黑朱紫绯绿翠)命中405行,99%为山水诗描写,非服饰用法,放弃使用
- "冠"字大量出现于"冠军""冠经房"等动词用法,需人工过滤
- "带"字几乎全为"衣带水""地带"等比喻,无服饰带制内容
- "佩""绶""笏"等高级服饰词在此书中几乎为零命中
- 本书为文人别集而非制度文献,服饰信息密度远低于《晋会要》等
审核结果
全部通过 ✅ — 原文均从grep+sed提取,有明确行号对应,噪音已人工过滤。