《贞白遗稿》服饰内容提取 · 操作日志
时间:2026-04-20 任务ID:batch4-2 操作员:AI Agent
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/贞白遗稿/
Step 2: 读取参考文件
- 读取
/home/z/my-project/upload/参考/总结.md(吕氏春秋服饰总结,260行) - 读取
/home/z/my-project/upload/参考/日志.md(晋会要操作日志,84行) - 读取
/home/z/my-project/upload/参考/原文提取.md(天工开物原文提取,165行)
Step 3: 检查输入文件
wc -l 贞白遗稿.txt → 1454行
wc -c 贞白遗稿.txt → 132,437字节(约129KB)
文件较小(<150KB),可直接grep处理。
Step 4: 第一轮grep——关键词全覆盖
# A组:衣裳冠服织物词
rg -n '衣裳|衣裘|衣冠|冠冕|衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' → 95行
# B组:颜色饰物词
rg -n '赤|青|黄|白|黑|朱|紫|绯|绿|翠|金银|玉|珠|簪|钗|钿|珥|步摇' → 212行
# C组:制度词
rg -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|幞头|乌纱|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' → 10行
# D组:服装品类词
rg -n '裘|冠|弁|帻|巾|帽|袍|衫|裙|裤|褐' → 28行
共计345行命中,需要大量过滤噪音。
Step 5: 第二轮grep——精细化搜索
# 核心服饰词(排除常见非服饰用法)
rg -n '冠冕|衣冠|衣裳|衮|绶|佩|笏|锦衣|乌纱|珠髻|翠拥|玉珥|象饰|簪|钗|钿|珥|缟衣|袍|衫|裙|褐|裘|帻|巾|帽|银丝|丝|绮|绢|帛|绸|缎|绫|罗|纱|绉|缟|缁|素冠|素服|斑衣|麻衣|锦袍|锦服|彩杖|宫花|华簪' | rg -v '丝[路泉雨]|绶[印]|素[餐]|丝[竹]|素[王]|罗[汉]|帛[书画]|银[两]' → 精炼结果
Step 6: 关键词去重与噪音过滤
噪音来源分析:
- "丝"字大量出现在"柳丝""游丝""雨丝"等非服饰语境
- "素"字出现在"素壁""素履""素质"等非服饰语境
- "翠"字出现在山水描写"翠微""翠眉"等
- "玉"字出现在"玉阶""玉座"等宫殿名物
- "罗"字出现在"罗宪彰"等人名
- "帛"字出现在"玉帛"朝贡语境
过滤原则:
- 保留明确指向服饰穿着的用例
- 保留制度性描述(如品色、冠服制)
- 保留与服饰文化密切相关的典故
- 排除纯自然景物描写
- 排除人名中的用字
Step 7: 分类整理
按11类整理:
- 冠服制度与礼仪(6条)
- 朝服与百官冠服(8条)
- 佩饰与礼器(8条)
- 衣冠与士族(3条)
- 锦衣与还乡(5条)
- 女性服饰与饰物(6条)
- 冠巾与丧服(4条)
- 锦袍与戎服(4条)
- 丝织品与衣料(6条)
- 毡裘与边塞服饰(2条)
- 其他服饰典故(4条)
共提取有效服饰条目约56条。
Step 8: 写出3个MD文件
总结.md(5,227字节)原文提取.md(14,170字节)日志.md(本文件)
均在20KB限制内。
关键发现
- 八品官袍尚着蓝:明初品色服之实证,程通自述八品官袍用蓝,与《明史·舆服志》"八品九品绿袍"有别
- 朱紫辉袍锦:藩府高官服色之描写
- 珠髻翠拥玉珥象饰:明初富贵妇人首饰之完整记录
- 脱簮珥尽钗钏:明代妇人首饰种类与经济价值
- 乌纱犹带旧风霜:明代官员常服乌纱帽之文学反映
- 宫花压帽重:明代朝宴赐花之俗的亲历记录
- 衮冕九章/衮龙浮:藩王最高冠服之描写
关键踩坑记录
- "丝"字噪音极大:柳丝、游丝、雨丝、银丝满鬓等非服饰用法占绝大多数
- "翠"字在山水诗中极常见:翠微、翠眉、翠岚等需仔细甄别
- "玉"字多用于宫殿名物(玉阶、玉座、玉墀)而非佩饰
- 此书为诗文集,无系统服饰制度记载,服饰内容全部散见于诗文意象
- 部分服饰词为典故用法(如补衮、韫玉、双舄),需结合语境判断
审核结果
全部通过 ✅ — 原文均从四库全书原文grep提取,有明确行号对应。已过滤非服饰用法的噪音,保留的条目均有服饰文化价值。