《雪溪集》服饰内容提取 · 工作日志

时间:2026-04-19 任务ID:batch21-3 输入:/home/z/my-project/upload/四库别集/雪溪集.txt(476行) 输出:/home/z/my-project/upload/四库别集output/雪溪集/(3个MD)


操作流程

Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/雪溪集/
wc -l 雪溪集.txt → 476行(小型诗集)

Step 2: 读取参考文件

读取 参考总结.md → 吕氏春秋服饰汇编格式(分类+注释+表格总结)
读取 参考日志.md → 晋会要提取流程(Step-by-Step记录)
读取 参考原文提取.md → 天工开物原文提取格式(行号+原文+关键词加粗)

Step 3: 第一轮grep——高频字

关键词:衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素
→ 命中约60行

Step 4: 第二轮grep——色彩与首饰

关键词:赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇
→ 命中约50行(含大量山水色彩描写噪音)

Step 5: 第三轮grep——制度性词汇

关键词:冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服
→ 仅命中1行(只履),说明本集无制度性服饰记载

Step 6: 第四轮grep——精准组合词

关键词:衣裘|衣巾|征衣|征袍|缁衣|素衣|衮衣|锦衣|绣衣|斑衣|縗衣|垂衣|披衣|衣饰|佛衣|裙袂|翠钿|金钗|犀梳|凤翘|环佩|佩环|玉佩|绛绡|霓裳|缟带|簮缨|轩冕|骕骦裘|季子裘
→ 命中25行,精准度大幅提升

Step 7: 第五轮grep——补充搜索

关键词:罗敷|宝髻|翠翘|青霞|绛绡|绮琴|丝绳|蚕|织|锦绣|文锦|纱|绢
关键词:玉衣|束素|风帽|只履|芒鞵|野服|浣纱|红妆|黄素|衣冠
→ 补充若干条目

Step 8: 噪音过滤

Step 9: 分类整理

将44条有效内容分为10大类:

  1. 衣类(10条)
  2. 裳裙类(4条)
  3. 裘类(3条)
  4. 冠冕巾帽类(8条)
  5. 履鞋类(2条)
  6. 佩饰首饰类(10条)
  7. 发饰妆容类(4条)
  8. 织物丝帛类(8条)
  9. 纺织工具类(4条)
  10. 典故类(4条)

部分条目归属多类(如"宝髻犀梳金凤翘"同时归入发饰与首饰)

Step 10: 写入3个MD文件


关键发现

  1. 《雪溪集》服饰内容极少且全为诗词意象:全书476行,有效服饰条目仅44条,无一涉及制度性记载
  2. 第三轮制度性关键词几乎零命中:说明宋代别集诗歌中服饰制度词汇极为罕见
  3. 用典密集:骕骦裘、季子裘、林宗巾、只履、斑衣等皆为历史典故的化用
  4. 女性首饰集中:金凤翘、翠翘、翠钿、金钗、犀梳等集中于国香诗与周昉美人图诗
  5. 纺织意象与闺怨关联:机杼、寒机、断机、绛绡、合欢绮皆出自闺怨题材
  6. "垂衣"为全书最有价值的礼制条目:卷一黄帝祠宇诗用"垂衣裳而天下治"典故

噪音过滤统计

类型 grep命中 有效条目 噪音率
高频字(衣/裳/裘等) ~60行 25条 ~58%
色彩与首饰 ~50行 8条 ~84%
制度性词汇 1行 1条 0%
精准组合词 25行 25条 ~0%
补充搜索 ~15行 10条 ~33%

审核结果

全部通过 ✅ — 原文均从四库全书本文中grep提取,有明确行号对应。所有条目已逐条甄别,剔除山水色彩噪音,保留服饰相关内容并标注修辞意象性质。