《追昔游集》服饰内容提取 · 工作日志
时间:2026-03-05 任务ID:batch6-5 来源:四库别集·追昔游集.txt(307行,43,754字节) 输出:追昔游集/总结.md、日志.md、原文提取.md
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/追昔游集
wc -l 追昔游集.txt → 307行
wc -c 追昔游集.txt → 43,754字节
文件体量较小(307行),但仍遵守"严禁整本载入LLM"规则,全程使用grep逐轮检索。
Step 2: 读取参考文件
读取 /home/z/my-project/upload/参考/ 下的三个模板文件:
- 总结.md → 分类编排、表格总结、按语注解格式
- 日志.md → 操作流程、关键发现、踩坑记录格式
- 原文提取.md → 按行号标注、分类提取、保留上下文格式
Step 3: grep多轮检索(5轮)
第1轮:基础服饰词
关键词:衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素
命中:大量行,含大量风景修饰用词
第2轮:颜色与首饰词
关键词:赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇
命中:极多行,绝大部分为风景/器物描写,服饰实物极少
第3轮:复合服饰词
关键词:冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|鱼袋|幞头|乌纱|进贤冠|深衣|大带|履|舄|靴|袜|霞帔|翟衣|蚕服
命中:0行——此集为诗歌集,无制度专论
第4轮:精细检索——官服品级词
关键词:衣裳|衣冠|布衣|麻衣|裘|冠緌|冠劒|冠饰|华冠|簪笔|簪裾|黄绶|朱轓|绛纱|绮|绶|锦衾|锦质|锦毛|锦臆|绮殿|绮树|绮疎|绮唱|绮绣
命中:约20行,含关键官服信息
第5轮:精细检索——特殊服饰词
关键词:袿|襦|絺|缝掖|袈裟|六铢衣|衲|虚裘|冠盖|绯|品色|免帽|散衣|椎髻|紫组绶|绛绡|华簪|捣衣
命中:约15行,补全关键条目
Step 4: 噪音过滤
过滤原则:
- 翠/碧/青/丹/朱/紫等颜色词在风景描写中大量出现(翠微、翠崖、碧嶂、丹槛、朱户、紫霄等),均非服饰,予以排除
- 锦/绮/罗/纱等织物词用于比喻时(锦质矜毛羽、绮殿、云锦截)标注为比喻,仅锦衾确认为实物
- 金/银/玉等器物描写(金仙、金樽、银屋、玉英等)大部分为器物而非佩饰,仅金铃玉佩确认为佩饰
- 白发/白头/霜须等为年龄描写,非服饰
过滤结果:
- 原始命中行:约120行
- 过滤后有效服饰行:约25行
- 有效服饰条目:约20条
Step 5: 分类整理
将有效条目分为8大类:
- 官服与品级标识(7条)
- 南北服制差异(2条)
- 平民与士人服饰(4条)
- 日常服饰与民俗(3条)
- 宗教服饰(3条)
- 丝织品与色彩(5条)
- 车服与仪仗(2条)
- 特殊条目(免帽散衣、捣衣等)
关键发现
- 蝉緌珥貂为唐代侍中冠制的诗歌实录——李绅除检校右貂时亲历,史料价值高
- 北被羔裘南卉服——为唐诗中罕见的服饰地理对比表述,源自《尚书·禹贡》
- 布衣三现——贯穿作者仕历始末,为唐代士人身份变迁的服饰象征
- 冬襦夏絺——为唐代民间四季衣料的珍贵实录
- 免帽散衣——唐代都市恶少的装束描写,反映服饰礼仪与治安的关联
- 梁朝宫人所制袈裟——南朝法服存至唐代的实物记录
- 此集无任何舆服制度专论,所有服饰信息均散见于诗歌意象和自注中
踩坑记录
- 颜色词噪音极大:翠/碧/青/紫/丹/朱等在唐诗中大量用于风景描写,与服饰无关的命中占总命中的70%以上,必须逐一排除
- 织物词比喻用法:锦/绮/纱等在唐诗中常作比喻(锦质=华美质地,绮殿=华美殿宇),需根据语境判断是否为实物
- 冠盖/冠履等词:有时指官员代称而非实际冠服,需结合上下文判断
- 行281散文小序:此集中罕见的散文体内容,包含"免帽散衣"重要民俗信息,grep时差点遗漏
- 行193自注:"衣存旧福田"中"衣"指袈裟,需读自注才能确认,单看诗句容易忽略
审核结果
全部通过 ✅ — 原文均从源文件grep提取,有明确行号对应,噪音已过滤,比喻与实物已区分标注。