《雪窻集》服饰内容提取 · 工作日志
时间:2026-04-19 任务ID:batch21-5 输入:/home/z/my-project/upload/四库别集/雪窻集.txt 输出:/home/z/my-project/upload/四库别集output/雪窻集/
操作流程
Step 1: 环境准备
mkdir -p /home/z/my-project/upload/四库别集output/雪窻集
wc -l 雪窻集.txt → 201行, 94611字节
Step 2: 读取参考文件
- 读取参考目录下3个MD(总结/日志/原文提取)
- 理解输出格式:总结需分类归纳,日志记录操作,原文提取按类别编排
Step 3: grep多轮搜索(5轮)
第1轮:基础服饰词(衣裳裘冠冕弁帻巾帽袍衫裙裤褐衮绶佩笏带锦绮绢帛丝绸缎绫罗纱绉缟缁素)
- 返回大量匹配行(几乎所有行含"衣/丝/素"等高频字)
第2轮:颜色与饰物词(赤青黄白黑朱紫绯绿翠金银玉珠簪钗钿珥步摇)
- 返回较多行,但多数为非服饰语境(如"白昼""清明""丹心"等)
第3轮:制度专词(冠服舆服章服朝服公服祭服丧服常服戎服赐服蟒衣飞鱼斗牛补服品色鱼袋革带玉带金带幞头乌纱进贤冠深衣大带蔽膝舄履靴袜霞帔翟衣蚕服)
- 仅匹配到"鱼袋"(赐紫金鱼袋)、"丧服"无直接匹配
第4轮:组合词与典故词(布衣|绣衣|美衣|衣裳|衣冠|衣裘|旒冕|搢笏|垂绅|紫金|金鱼|银帛|墨绶|朱轓|貂珰|缁黄|纱|赐紫|鱼袋)
- 精准命中31条有效服饰内容
第5轮:补充词(玉雪|圭璧|荷囊|蝉|飞蝉|佩|苍佩|纶|丝纶|绣|绶|纁|布韦|蔬食|布衾|素车|丹斾|赤帷|素履)
- 补充提取苍佩、布衾、素车、赤帷等
Step 4: 过滤噪音
需排除的非服饰用例:
- "白昼剽金"——"白"为白天义
- "丹心一片"——"丹"为忠心义
- "素商惨兮秋声"——"素"为秋季义
- "玉雪"——喻品格洁白
- "圭璧"——喻人品如圭璧
- "清泚""清涟"——水清义
- "金贝""金帛""缗石"——财货义,非服饰
- "丝粟"——细微义
Step 5: 分类整理
按8类整理:
- 布衣·蔬食(5条)——核心主题
- 衣冠(1条)
- 美衣(1条)
- 绣衣使者(2条)
- 官服仪制(9条)
- 丧葬服饰器物(5条)
- 丝帛·纺织(7条)
- 其他散见(3条)
Step 6: 输出3个MD文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 总结.md | ~7KB | 分类归纳、核心发现、统计 |
| 原文提取.md | ~9KB | 31条原文逐条编排 |
| 日志.md | 本文件 | 操作记录 |
关键发现
- 《雪窻集》服饰内容以象征性为主:全书为奏议文集,无系统性服饰制度记载
- "布衣蔬食"为核心意象:5次出现,形成孙梦观的人格标签
- 官服词汇服务于政治批评:旒冕、貂珰、朱轓墨绶等均出现在弹劾语境
- 丧葬服饰呼应清廉主题:布衾覆殓、素车白斾完成廉吏形象定格
- 全书服饰密度极低:201行中仅31条有效服饰用例,且多为隐喻
关键踩坑记录
- "素"字出现极多(素商、素车、素履、素节等),多数为"朴素/白色"引申义,非服饰本体
- "衣"字出现频繁但"衣"多为动词或泛指(不胜衣、揽衣危坐等),需仔细甄别
- "丝"字在"丝纶""丝谷""丝粟"中均非服饰义,"丝纶"为帝诏,"丝谷"为丝税
- "玉雪""圭璧""玉壶冰雪"均为品格比喻,非实际玉器服饰
- "丹碧"出现多次,指官署或地方颜色标识,非个人服饰
审核结果
全部通过 ✅ — 原文均从雪窻集.txt中grep提取,有明确行号对应,经逐条甄别过滤非服饰用例后保留31条。