《追昔游集》服饰内容提取 · 工作日志

时间:2026-03-05 任务ID:batch6-5 来源:四库别集·追昔游集.txt(307行,43,754字节) 输出:追昔游集/总结.md、日志.md、原文提取.md


操作流程

Step 1: 环境准备

mkdir -p /home/z/my-project/upload/四库别集output/追昔游集
wc -l 追昔游集.txt → 307行
wc -c 追昔游集.txt → 43,754字节

文件体量较小(307行),但仍遵守"严禁整本载入LLM"规则,全程使用grep逐轮检索。

Step 2: 读取参考文件

读取 /home/z/my-project/upload/参考/ 下的三个模板文件:
- 总结.md → 分类编排、表格总结、按语注解格式
- 日志.md → 操作流程、关键发现、踩坑记录格式
- 原文提取.md → 按行号标注、分类提取、保留上下文格式

Step 3: grep多轮检索(5轮)

第1轮:基础服饰词

关键词:衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素
命中:大量行,含大量风景修饰用词

第2轮:颜色与首饰词

关键词:赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇
命中:极多行,绝大部分为风景/器物描写,服饰实物极少

第3轮:复合服饰词

关键词:冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|鱼袋|幞头|乌纱|进贤冠|深衣|大带|履|舄|靴|袜|霞帔|翟衣|蚕服
命中:0行——此集为诗歌集,无制度专论

第4轮:精细检索——官服品级词

关键词:衣裳|衣冠|布衣|麻衣|裘|冠緌|冠劒|冠饰|华冠|簪笔|簪裾|黄绶|朱轓|绛纱|绮|绶|锦衾|锦质|锦毛|锦臆|绮殿|绮树|绮疎|绮唱|绮绣
命中:约20行,含关键官服信息

第5轮:精细检索——特殊服饰词

关键词:袿|襦|絺|缝掖|袈裟|六铢衣|衲|虚裘|冠盖|绯|品色|免帽|散衣|椎髻|紫组绶|绛绡|华簪|捣衣
命中:约15行,补全关键条目

Step 4: 噪音过滤

过滤原则

过滤结果

Step 5: 分类整理

将有效条目分为8大类:

  1. 官服与品级标识(7条)
  2. 南北服制差异(2条)
  3. 平民与士人服饰(4条)
  4. 日常服饰与民俗(3条)
  5. 宗教服饰(3条)
  6. 丝织品与色彩(5条)
  7. 车服与仪仗(2条)
  8. 特殊条目(免帽散衣、捣衣等)

关键发现

  1. 蝉緌珥貂为唐代侍中冠制的诗歌实录——李绅除检校右貂时亲历,史料价值高
  2. 北被羔裘南卉服——为唐诗中罕见的服饰地理对比表述,源自《尚书·禹贡》
  3. 布衣三现——贯穿作者仕历始末,为唐代士人身份变迁的服饰象征
  4. 冬襦夏絺——为唐代民间四季衣料的珍贵实录
  5. 免帽散衣——唐代都市恶少的装束描写,反映服饰礼仪与治安的关联
  6. 梁朝宫人所制袈裟——南朝法服存至唐代的实物记录
  7. 此集无任何舆服制度专论,所有服饰信息均散见于诗歌意象和自注中

踩坑记录

  1. 颜色词噪音极大:翠/碧/青/紫/丹/朱等在唐诗中大量用于风景描写,与服饰无关的命中占总命中的70%以上,必须逐一排除
  2. 织物词比喻用法:锦/绮/纱等在唐诗中常作比喻(锦质=华美质地,绮殿=华美殿宇),需根据语境判断是否为实物
  3. 冠盖/冠履等词:有时指官员代称而非实际冠服,需结合上下文判断
  4. 行281散文小序:此集中罕见的散文体内容,包含"免帽散衣"重要民俗信息,grep时差点遗漏
  5. 行193自注:"衣存旧福田"中"衣"指袈裟,需读自注才能确认,单看诗句容易忽略

审核结果

全部通过 ✅ — 原文均从源文件grep提取,有明确行号对应,噪音已过滤,比喻与实物已区分标注。