《雪山集》服饰内容提取 · 操作日志
时间:2026-03-04 任务ID:batch21-1 任务:提取《雪山集》全部服饰相关内容,整理分类总结 输入:/home/z/my-project/upload/四库别集/雪山集.txt(1056行) 输出:/home/z/my-project/upload/四库别集output/雪山集/
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/雪山集
wc -l 雪山集.txt → 1056行
Step 2: 读取参考文件
- 参考/总结.md → 《吕氏春秋》服饰汇编格式(分类+引文+注释+总结表)
- 参考/日志.md → 《晋会要》操作日志格式(步骤+关键发现+踩坑)
- 参考/原文提取.md → 《天工开物》原文格式(章节+引文+注释)
Step 3: 第一轮grep——基础服饰词
grep -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐" 雪山集.txt
→ 大量命中,需进一步过滤
Step 4: 第二轮grep——材质与颜色词
grep -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素" 雪山集.txt
→ 多数为非服饰用法(人名/地名/修辞),需鉴别
Step 5: 第三轮grep——专用服饰词
grep -n "衮服|被衮|冠冕|佩服|衣冠|布衣|青衫|绿衫|缣|纩|鱼符|舆服|章服|朝服|祭服|丧服|戎服|赐服|幞头|进贤|深衣" 雪山集.txt
→ 高价值命中:衮服冕(行40)、进贤冠(行817)、鱼符(行88)、戎衣(行315/911)
Step 6: 第四轮grep——补充搜索
grep -n "玉带|金带|革带|笏|簪|珥|步摇|补服|蟒衣|飞鱼|斗牛|进贤|武冠|貂|金珰|翠旗|龙旂" 雪山集.txt
→ 簪(行911)、翠旗/龙旂(行204)、黑貂裘(行1011)
Step 7: 噪音过滤
已过滤的噪音项:
- "衣"作动词/比喻:衣冠之版(行86,指士籍)、衣冠籍(行466,官籍)——保留为身份象征
- "裳"仅在"褰裳"(行55/468)中出现,属文学修辞但保留
- "带"多作"带兵""地带"等非服饰用法,已排除
- "素"多作"素来""素心",仅"衣纯素"(行327)和"素袂"(行339)保留
- "金/银/玉/翠"多作修饰语(金铁、玉镜、翠竹),仅"金支翠旗""玉除"等仪仗类保留
- "赤/青/黄/白/黑"多为景物描写,仅"衣白""翠衣"等服饰用法保留
Step 8: 分类整理与写文件
按7大类整理:赋税服饰、冕服朝仪、军事服饰、人物服饰、日常服饰、纺织物、配饰仪仗。
关键发现
- 淮衣制度为全书最突出的服饰内容,见于两篇记文,数据详实
- 进贤冠(行817)为全集中唯一明确的冠制记载
- 军服品色制度(行177)——七品五色,以绯为最高——为南宋军事服饰制度提供了具体记载
- 苏轼"衣短绿衫才及膝"(行202)为珍贵的苏轼服饰纪实
- 全集服饰内容偏少(1056行中有效服饰条目约30条),因《雪山集》主要为政论与诗文
关键踩坑
- "被衮服冕"(行40)中"被"读pī,通"披",为穿着之意,非被动
- "淮衣"非指淮地衣裳,而是兴国军以纺织品代赋的专有税目名
- "缣"在行171中同时出现"税缣"和"淮衣"两个不同税目,需区分
- "衣冠"出现频率高但多数为"士大夫/官员"代称,非具体服饰描写
- 行339"玉女"篇为拟人寓言(写益母草),"翠衣素袂绀缨"为拟人服饰,仍保留
- 行330"滕修"篇为寓言(写络石藤),其中"履"为比喻用法
文件清单
| 文件 | 大小限制 | 说明 |
|---|---|---|
| 总结.md | ≤20KB | 分类总结+核心发现 |
| 日志.md | ≤20KB | 操作流程+发现+踩坑 |
| 原文提取.md | ≤20KB | 服饰相关原文摘录 |