《谷城山馆诗集》服饰内容提取 · 操作日志
时间:2026-04-19 任务ID:batch3-3 操作人:AI Agent
操作流程
Step 1: 创建输出目录
mkdir -p /home/z/my-project/upload/四库别集output/谷城山馆诗集
Step 2: 读取参考文件
- 参考
/home/z/my-project/upload/参考/下三个MD(总结.md、日志.md、原文提取.md) - 了解输出格式要求
Step 3: 文件基本信息
文件:/home/z/my-project/upload/四库别集/谷城山馆诗集.txt
行数:2490
作者:[明] 于慎行
分类:四库全书·集部·别集类五
结构:二十卷(古乐府→五古→七古→五律→七律→五言长律→绝句→赋)
Step 4: grep多轮搜索
第一轮:基础服饰关键词
grep -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|袍|衫|裙|裤|褐|衮|绶|佩|笏|带' → 326行
grep -n '锦|绮|绢|帛|丝|绸|缎|绫|罗|纱|绉|缟|缁|素' → 225行
grep -n '金|银|玉|珠|簪|钗|钿|珥|步摇' → 507行
grep -n '冠服|舆服|章服|朝服|公服|祭服|丧服|常服|戎服|赐服|蟒衣|飞鱼|斗牛|补服|品色|鱼袋|革带|玉带|金带|幞头|乌纱|进贤冠|深衣|大带|蔽膝|舄|履|靴|袜|霞帔|翟衣|蚕服' → 35行
第二轮:精准复合词
grep -n '锦衣|罗衣|绣衣|素衣|儒衣|布衣|朝衣|赐衣|朱衣|紫衣|绯衣|蝉冠|柱后|铁冠|鹖冠|貂冠|法冠|武冠|弁|帻|幞头|乌纱' → 约30行高价值
grep -n '绣|纨|缟|缁|珠履|朱履|斑衣|紫袍|绯袍|绯衫|绿袍|青袍|白袍' → 约40行
grep -n '衮|冕|舄|笏|绶|裘|褐|袍|衫|帔' → 约80行
grep -n '冠冕|垂旒|衮衣|补衮|赤舄|玉舄|褒衣|方履|赐袍|蟒衣|鱼袋|犀带|宝带|乌纱|幞头|进贤|法冠|铁冠|柱后|獬豸|貂蝉|蝉冠|鹖冠' → 约20行
grep -n '缨|簪|珥|貂|绶|金章|紫绶|银章|银青|金紫|墨绶|赤绶|铜符|银印|金印|犀|鞶囊|搢绅|缙绅' → 约60行
Step 5: 噪音过滤
已过滤的噪音类型:
- 颜色泛用:赤/青/黄/白/黑/朱/紫/绿/翠 等单字色词在诗歌中极常见(668行),仅保留与服饰明确关联的(如"朱衣""紫袍""绯衣"等)
- 金/银/玉/珠 泛用:507行中大量为景物描写(如"玉树""银河""金堤"),仅保留与人身佩饰相关的
- 带/履 泛用:"衣带""如带"等非服饰用法大量存在,仅保留明确指腰带的
- 佩 泛用:"佩剑""敬佩"等非服饰用法,仅保留"玉佩""环佩"等佩饰
Step 6: 分类整理
将筛选后的服饰内容分为9大类:
- 朝堂冠服与仪典
- 品官章服与赐服
- 冠帽类
- 隐逸与闲居服饰
- 女性服饰
- 军戎服饰
- 丝织品与面料
- 佩饰与印绶
- 礼制概念
Step 7: 写3个MD文件
- 总结.md(本文件)
- 日志.md(本文件)
- 原文提取.md
关键发现
- 卷二十《经筵赋》为服饰制度核心段落:集中描写冕裳、柱后冠、侍中貂、螭头笔、剑佩、褒衣、方履、尚衣等,是全书最系统的朝堂服饰描写
- 赐服制度突出:出现"赐衣""赐袍"等至少5处,反映明代文臣受赐服的荣耀
- 冠帽与身份严格对应:鹖冠=隐士/武人,柱后冠=御史,貂蝉=侍中,纶巾=闲居
- "出—处"服饰意象对立:朝堂冠服(冕裳、赐袍)vs 隐逸服饰(薜荔服、鹖冠、纶巾、布衣)
- 品色制度明确:绯衣/绯袍(高品)、青袍(微官)、金章紫绶(显贵)
关键踩坑记录
- 诗歌中颜色词极多(668行),需严格过滤,只保留与服饰明确关联的复合词
- "带"字出现极多("衣带""如带""带索"等),大部分非服饰含义
- "佩"字亦多泛用(佩剑、敬佩),需区分佩饰与动词
- 金/银/玉/珠 在诗中大量用于景物比喻,与服饰无关
- 部分古籍异体字需注意:帬=裙、禂=裯、防=风、竒=奇等
统计
| 项目 | 数量 |
|---|---|
| 全文总行数 | 2490 |
| grep匹配行(服冠裘带等) | 326 |
| grep匹配行(面料类) | 225 |
| grep匹配行(饰品类) | 507 |
| grep匹配行(复合词精准) | 35 |
| 筛选后有效服饰条目 | 约80条 |
| 分类数 | 9类 |