《雪楼集》服饰内容提取 · 操作日志
时间:2026-03-04 任务ID:batch21-2 输入:/home/z/my-project/upload/四库别集/雪楼集.txt(3186行,834,765字节)
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/雪楼集/
- 读取参考文件3份(总结.md、日志.md、原文提取.md)
- 确认源文件存在,3186行约835KB
Step 2: 多轮grep搜索
第一轮:基础服饰词搜索(4批并行)
rg -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带" → 289行
rg -n "锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素" → 172行
rg -n "赤|青|黄|白|黑|朱|紫|绯|绿|翠|金|银|玉|珠|簪|钗|钿|珥|步摇" → 768行
rg -n "冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣……" → 51行
发现:颜色/材质词(第3批)噪音极大,"金""白""青"等大量非服饰用例;复合词(第4批)精确度最高。
第二轮:精准复合词搜索
rg -n "衮|冕|弁|帻|幞头|乌纱|进贤冠|深衣|蔽膝|舄|霞帔|翟衣|蚕服|鱼袋|蟒衣……" → 约30行高价值
rg -n "赐服|赐衣|赐冠|赐裘|赐袍|赐带|赐锦|赐金|赐紫|赐绯" → 约15行
rg -n "冠服|朝服|公服|祭服|丧服|常服|戎服|章服|舆服" → 4行
第三轮:具体服饰物名搜索
rg -n "貂裘|狐裘|锦衣|锦袍|织金|金带|玉带|革带|束带|宝带|珠衣" → 约20行
rg -n "簪|钗|步摇|霞帔|象笏|端笏|章服|深衣|大带|幅舄" → 约15行
rg -n "幅巾|野服|布衣|朱衣|紫衣|金衣|犀带|织金" → 约12行
rg -n "衣冠|冠带|衣裳|垂裳|衮衣|赤舄|玄衮" → 约15行
Step 3: 噪音过滤
过滤规则:
- "衣"字在"衣钵""衣带""衣以苇"等非服饰语境中出现的→剔除或保留标注
- "金""白"等单字颜色词→不单独提取,仅在服饰组合词中保留
- "冠"在"冠绝""冠军"等非服饰语境→剔除
- "履"在"履历""履祥"(人名)等→剔除
- "衣冠"作为士大夫代称→归入意象类,非实物服饰
保留但标注:
- "衣以苇"(以苇覆墙,非穿衣)→剔除
- "赐衣钞"(衣与钞并赐)→保留
- "时服"(时令服装)→保留
Step 4: 分类整理
按7大类整理:
- 冕服与朝服制度
- 赐服赏赉制度(核心,约60%内容)
- 品服与官员服饰
- 士人与民间服饰
- 织物与材料
- 服饰相关器物(带、笏等)
- 服饰意象(诗歌)
Step 5: 写3个MD文件
- 总结.md(本文件):分类总结,≤20KB
- 日志.md:操作记录
- 原文提取.md:关键原文摘录
关键发现
- 《雪楼集》服饰以赐服赏赉为核心:阿尔尼格赐服最详(冕服+玉带+锦衣+金带+燕衣24袭+貂裘),信都王家族赐服最系统(7次记录)
- 元代赐服制度的层次:冕服→玉带/金带→锦衣/织金服→貂裘→燕衣→巾服,等级分明
- "织金"为元代标志:织金服、织金帛、织金锦段反复出现,体现元代尚金风尚
- 品色衣制延续:六品朱衣象笏,与唐宋一脉相承
- 深衣为儒者标志:墓志铭中多次提及深衣敛葬,诗歌中以深衣为儒者象征
踩坑记录
- "衣"字搜索结果约289行,但大量为"衣钵""衣带""衣食"等非服饰用法,需人工甄别
- "冠"字在"冠军""冠绝""冠冕"(比喻义)中频繁出现,需区分实物冠帽与比喻
- "履"字大量出现在人名"履祥"中,需排除
- "带"字在"带兵""地带"等非服饰语境中频繁出现
- "裘"字几乎全为服饰相关(貂裘、羊裘),噪音极少
- "金"字单搜768行结果,基本不可用,必须组合搜索
统计
| 指标 | 数值 |
|---|---|
| 源文件行数 | 3186 |
| grep搜索轮次 | 3轮(约12次搜索) |
| 高价值服饰条目 | 约100条 |
| 核心赐服记录 | 约25条 |
| 诗歌服饰意象 | 约15条 |
| 输出文件 | 3个MD |