《贞素斋集》服饰内容提取 · 操作日志
时间:2026-04-17 任务ID:batch4-3 任务:提取《贞素斋集》全部服饰相关内容,整理分类总结
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/贞素斋集
Step 2: 读取参考文件
读取3个参考MD(总结.md、日志.md、原文提取.md),确认输出格式规范。
Step 3: 源文件概况
wc -l 贞素斋集.txt → 1406行
文件规模适中,为元末明初舒頔的诗文集。
Step 4: grep多轮搜索
第一轮:基础服饰关键词(衣裳裘冠冕弁帻巾帽袍衫裙裤褐)
rg -n "衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐" 贞素斋集.txt
返回大量结果,需进一步过滤。
第二轮:材质与色彩关键词
rg -n "衮|绶|佩|笏|带|锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素|赤|青|黄|白|黑|朱|紫|绯|绿|翠" 贞素斋集.txt
颜色词噪音极大(白/青/黄等大量非服饰用法),需用复合词过滤。
第三轮:复合关键词精确搜索
rg -n "衣冠|衣裳|儒衣|儒冠|衣衾|深衣|大带|短褐|锦衣|紫袍|白袍|青巾|冠服|缟衣|羊裘|紫云裘|白玉佩|纡银衣绯|簪笏|戎衣|斑衣|绛帻|乌纱|朱衣|帽檐|霞帔|翟衣|蚕服|缁尘|锦袍|纱裾|紫霞裾|罗衣|布衣|衣衫|衣湿|衣襟|衣锦|赐服|补服|章服" 贞素斋集.txt
返回约60条精确匹配。
第四轮:高级服饰关键词
rg -n "衮衣|衮裳|冕|弁|帻|幞头|进贤冠|革带|玉带|鱼袋|品色|飞鱼|斗牛|蟒衣|舄|履|靴|袜|蔽膝|佩|笏|绶|步摇|簪|钗|钿|珥|金带" 贞素斋集.txt
补充发现:舄(王乔舄)、佩(白玉佩/鸣佩/佩蕙)、笏(簪笏/拄笏)、钗(宝钗)、履(双履/金莲)。
Step 5: 噪音过滤
排除以下类型的非服饰用例:
- 颜色词独立使用:如"白云""青天""黄金"等非服饰语境
- "衣"作为动词:如"衣重褐"保留(服饰),排除一般性"衣"字用法
- "素"非服饰义:如"素质""素志"等
- "丝"非服饰义:如"蛛丝""雨丝"等
- "金/银/玉"非服饰义:大量山石景物描写
- "冠"作为"冠绝""冠军":排除
Step 6: 分类整理
按10大类整理:
- 衣冠与士族身份(10条)
- 官服与品级(10条)
- 冠帽巾帻(10条)
- 深衣大带与儒者礼服(2条)
- 丧乱中的衣衫(8条)
- 服饰意象与典故(20条)
- 妇人服饰与首饰(3条)
- 布衣——平民代称(4条)
- 冠盖——权贵代称(3条)
Step 7: 写3个MD文件
- 总结.md(5,820字)——分类总结+表格
- 原文提取.md(6,150字)——逐条原文+行号
- 日志.md(本文件)——操作流程记录
关键发现
- 纡银衣绯:元代六品武官品色服的珍贵实例——银带+绯衣,印证元代品色服制
- 深衣大带:元末民间女性(頔之从姑)仍守古制穿深衣大带,为儒者礼制的活态传承
- 冠服整肃沐浴外宿:祭祀前冠服礼仪的实践记录
- 衣冠陵替:元末明初士族衰落的标志性表述
- 衣衫尽剥脱裸身肉见赤:战乱中被劫剥衣的惨痛实录
- 青巾白袍/紫袍:赵匡胤微时与称帝后服色对比,为题画诗中的服饰叙事
- 儒冠一着道士服:儒道服饰转换的身份隐喻
- 短褐峩巾:元代学佛者的典型装扮
- 云髻宝钗:妇人首饰的少见描写
- 五花绫:民间丝织品名,反映纺织生产
关键踩坑记录
- 颜色词(白/青/黄/朱/紫/金/银/玉等)噪音极大,单独搜索几乎整本命中,必须用复合词过滤
- "衣"字在诗文中极为常见,大量为"衣"作动词或泛指,需逐一甄别
- "布衣""衣冠"等虽为服饰词,实际更多用作身份代称,仍予收录
- "冠盖"非具体冠饰,而是权贵代称,单独分类
- 文本为繁体无标点,部分异体字需注意(如帻→帻、裾→裾等)
审核结果
全部通过 ✅ — 原文均从源文件grep提取,有明确行号对应。3个MD文件均≤20KB。