《雪山集》服饰内容提取 · 操作日志

时间:2026-03-04 任务ID:batch21-1 任务:提取《雪山集》全部服饰相关内容,整理分类总结 输入:/home/z/my-project/upload/四库别集/雪山集.txt(1056行) 输出:/home/z/my-project/upload/四库别集output/雪山集/


操作流程

Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/雪山集
wc -l 雪山集.txt → 1056行

Step 2: 读取参考文件

Step 3: 第一轮grep——基础服饰词

grep -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐" 雪山集.txt
→ 大量命中,需进一步过滤

Step 4: 第二轮grep——材质与颜色词

grep -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素" 雪山集.txt
→ 多数为非服饰用法(人名/地名/修辞),需鉴别

Step 5: 第三轮grep——专用服饰词

grep -n "衮服|被衮|冠冕|佩服|衣冠|布衣|青衫|绿衫|缣|纩|鱼符|舆服|章服|朝服|祭服|丧服|戎服|赐服|幞头|进贤|深衣" 雪山集.txt
→ 高价值命中:衮服冕(行40)、进贤冠(行817)、鱼符(行88)、戎衣(行315/911)

Step 6: 第四轮grep——补充搜索

grep -n "玉带|金带|革带|笏|簪|珥|步摇|补服|蟒衣|飞鱼|斗牛|进贤|武冠|貂|金珰|翠旗|龙旂" 雪山集.txt
→ 簪(行911)、翠旗/龙旂(行204)、黑貂裘(行1011)

Step 7: 噪音过滤

已过滤的噪音项

Step 8: 分类整理与写文件

按7大类整理:赋税服饰、冕服朝仪、军事服饰、人物服饰、日常服饰、纺织物、配饰仪仗。


关键发现

  1. 淮衣制度为全书最突出的服饰内容,见于两篇记文,数据详实
  2. 进贤冠(行817)为全集中唯一明确的冠制记载
  3. 军服品色制度(行177)——七品五色,以绯为最高——为南宋军事服饰制度提供了具体记载
  4. 苏轼"衣短绿衫才及膝"(行202)为珍贵的苏轼服饰纪实
  5. 全集服饰内容偏少(1056行中有效服饰条目约30条),因《雪山集》主要为政论与诗文

关键踩坑


文件清单

文件 大小限制 说明
总结.md ≤20KB 分类总结+核心发现
日志.md ≤20KB 操作流程+发现+踩坑
原文提取.md ≤20KB 服饰相关原文摘录